4 years ago · 2738f8ca39
--- a/benchmarks/benchmark_optimizer.py
+++ b/benchmarks/benchmark_optimizer.py
@@ -77,7 +77,7 @@ def benchmark_optimizer(args: TrainingArguments):
 
															         assert isinstance(model, torch.nn.Module), "model_arch must evaluate to a pytorch module"
														
 
															         optimizer = Optimizer(
														
 
															-            prefix=args.prefix,
														
 
															+            run_id=args.prefix,
														
 
															             target_batch_size=args.target_batch_size,
														
 
															             batch_size_per_step=batch_size,
														
 
															             params=model.parameters(),
														
--- a/hivemind/optim/experimental/optimizer.py
+++ b/hivemind/optim/experimental/optimizer.py
@@ -35,7 +35,7 @@ class Optimizer(torch.optim.Optimizer):
 
															     >>> model = transformers.AutoModel("albert-xxlarge-v2")
														
 
															     >>> dht = hivemind.DHT(initial_peers=INITIAL_PEERS, start=True)
														
 
															-    >>> opt = hivemind.Optimizer(model.parameters(), optim_cls=torch.optim.Adam, prefix="run_42",
														
 
															+    >>> opt = hivemind.Optimizer(model.parameters(), optim_cls=torch.optim.Adam, run_id="run_42",
														
 
															     >>>                          target_batch_size=4096, batch_size_per_step=4)
														
 
															     >>> while True:
														
 
															     >>>     loss = compute_loss_on_batch(model, batch_size=4)
														
@@ -54,7 +54,7 @@ class Optimizer(torch.optim.Optimizer):
 
															       other peers have already made some progress and changed their learning rate accordingly.
														
 
															     :param dht: a running hivemind.DHT instance connected to other peers
														
 
															-    :param prefix: a unique name of this experiment, used as a common prefix for all DHT keys
														
 
															+    :param run_id: a unique name of this experiment, used as a common prefix for all DHT keys
														
 
															     :param target_batch_size: perform optimizer step after all peers collectively accumulate this many samples
														
 
															     :param batch_size_per_step: before each call to .step, user should accumulate gradients over this many samples
														
 
															     :param optimizer: a standard pytorch optimizer, preferably a large-batch one such as LAMB, LARS, etc.
														
@@ -88,7 +88,7 @@ class Optimizer(torch.optim.Optimizer):
 
															         self,
														
 
															         *,
														
 
															         dht: DHT,
														
 
															-        prefix: str,
														
 
															+        run_id: str,
														
 
															         target_batch_size: int,
														
 
															         batch_size_per_step: Optional[int] = None,
														
 
															         optimizer: Union[TorchOptimizer, OptimizerFactory],
														
@@ -114,7 +114,7 @@ class Optimizer(torch.optim.Optimizer):
 
															         assert not (client_mode and auxiliary), "Client-mode peers cannot serve as auxiliaries"
														
 
															         assert not auxiliary or batch_size_per_step is None, "Auxiliary peers should not accumulate batches"
														
 
															-        self.dht, self.prefix, self.client_mode, self.auxiliary = dht, prefix, client_mode, auxiliary
														
 
															+        self.dht, self.run_id, self.client_mode, self.auxiliary = dht, run_id, client_mode, auxiliary
														
 
															         self.batch_size_per_step, self.target_batch_size = batch_size_per_step, target_batch_size
														
 
															         self.matchmaking_time, self.average_state_every = matchmaking_time, average_state_every
														
 
															         self.delay_grad_averaging, self.delay_optimizer_step = delay_grad_averaging, delay_optimizer_step
														
@@ -141,7 +141,7 @@ class Optimizer(torch.optim.Optimizer):
 
															     def _make_state_averager(self, **kwargs) -> TrainingStateAverager:
														
 
															         return TrainingStateAverager(
														
 
															             dht=self.dht,
														
 
															-            prefix=f"{self.prefix}_state_averager",
														
 
															+            prefix=f"{self.run_id}_state_averager",
														
 
															             allreduce_timeout=self.averaging_timeout,
														
 
															             shutdown_timeout=self.shutdown_timeout,
														
 
															             status_loglevel=self.status_loglevel,
														
@@ -157,7 +157,7 @@ class Optimizer(torch.optim.Optimizer):
 
															         assert hasattr(self, "state_averager"), "must initialize state averager first"
														
 
															         grad_averager = GradientAverager(
														
 
															             dht=self.dht,
														
 
															-            prefix=f"{self.prefix}_grad_averager",
														
 
															+            prefix=f"{self.run_id}_grad_averager",
														
 
															             parameters=self.state_averager.main_parameters,
														
 
															             allreduce_timeout=self.averaging_timeout,
														
 
															             shutdown_timeout=self.shutdown_timeout,
														
@@ -177,7 +177,7 @@ class Optimizer(torch.optim.Optimizer):
 
															     def _make_progress_tracker(self, target_batch_size: int, **kwargs) -> ProgressTracker:
														
 
															         return ProgressTracker(
														
 
															             dht=self.dht,
														
 
															-            prefix=self.prefix,
														
 
															+            prefix=self.run_id,
														
 
															             target_batch_size=target_batch_size,
														
 
															             client_mode=self.client_mode,
														
 
															             status_loglevel=self.status_loglevel,
														
@@ -444,7 +444,7 @@ class Optimizer(torch.optim.Optimizer):
 
															         )
														
 
															     def __repr__(self):
														
 
															-        return f"{self.__class__.__name__}(prefix={self.prefix}, epoch={self.local_epoch})"
														
 
															+        return f"{self.__class__.__name__}(prefix={self.run_id}, epoch={self.local_epoch})"
														
 
															     def shutdown(self):
														
 
															         logger.debug("Sending goodbye to peers...")
														
--- a/tests/test_optimizer.py
+++ b/tests/test_optimizer.py
@@ -290,7 +290,7 @@ def test_progress_tracker():
 
															 def test_optimizer(
														
 
															     num_peers: int = 1,
														
 
															     num_clients: int = 0,
														
 
															-    target_batch_size: int = 64,
														
 
															+    target_batch_size: int = 32,
														
 
															     total_epochs: int = 3,
														
 
															     reuse_grad_buffers: bool = True,
														
 
															     delay_grad_averaging: bool = True,
														
@@ -311,7 +311,7 @@ def test_optimizer(
 
															         assert isinstance(model, torch.nn.Module), "model_arch must evaluate to a pytorch module"
														
 
															         optimizer = Optimizer(
														
 
															-            prefix="test_run",
														
 
															+            run_id="test_run",
														
 
															             target_batch_size=target_batch_size,
														
 
															             batch_size_per_step=batch_size,
														
 
															             params=model.parameters(),
														
@@ -334,7 +334,7 @@ def test_optimizer(
 
															         prev_time = time.perf_counter()
														
 
															         while optimizer.local_epoch < total_epochs:
														
 
															-            time.sleep(max(0.0, prev_time + random.gauss(batch_time, 0.1) - time.perf_counter()))
														
 
															+            time.sleep(max(0.0, prev_time + batch_time - time.perf_counter()))
														
 
															             batch = torch.randint(0, len(features), (batch_size,))
														
 
															             loss = F.mse_loss(model(features[batch]), targets[batch])
														
@@ -377,8 +377,8 @@ def test_optimizer(
 
															     assert isinstance(optimizer, Optimizer)
														
 
															     assert optimizer.local_epoch == optimizer.tracker.global_epoch == total_epochs
														
 
															     expected_samples_accumulated = target_batch_size * total_epochs
														
 
															-    assert expected_samples_accumulated <= total_samples_accumulated.value <= 2 * expected_samples_accumulated
														
 
															-    assert 4 / 0.3 * 0.9 <= optimizer.tracker.performance_ema.samples_per_second <= 4 / 0.3 * 1.1
														
 
															+    assert expected_samples_accumulated <= total_samples_accumulated.value <= expected_samples_accumulated * 1.2
														
 
															+    assert 4 / 0.3 * 0.8 <= optimizer.tracker.performance_ema.samples_per_second <= 4 / 0.3 * 1.2
														
 
															     assert not optimizer.state_averager.is_alive()
														
 
															     assert not optimizer.grad_averager.is_alive()