4 years ago · b48220577e
--- a/hivemind/moe/server/__init__.py
+++ b/hivemind/moe/server/__init__.py
@@ -331,6 +331,7 @@ class Server(threading.Thread):
 
															                     clip_grad_norm=clip_grad_norm,
														
 
															                     min_batch_size=min_batch_size,
														
 
															                     max_batch_size=max_batch_size,
														
 
															+                    target_batch_size=averaging_target_batch_size,
														
 
															                 )
														
 
															         if checkpoint_dir is not None:
														
--- a/hivemind/moe/server/expert_backend.py
+++ b/hivemind/moe/server/expert_backend.py
@@ -57,6 +57,7 @@ class ExpertBackend:
 
															         num_warmup_steps: int = None,
														
 
															         num_total_steps: int = None,
														
 
															         clip_grad_norm: float = None,
														
 
															+        target_batch_size: int = None,
														
 
															         **kwargs,
														
 
															     ):
														
 
															         super().__init__()
														
@@ -98,6 +99,7 @@ class ExpertBackend:
 
															         self.update_count = 0
														
 
															         self.examples_processed = 0
														
 
															+        self.target_batch_size = target_batch_size
														
 
															     def forward(self, *inputs: torch.Tensor) -> Tuple[torch.Tensor, ...]:
														
 
															         """
														
@@ -182,21 +184,23 @@ class ExpertBackend:
 
															         """
														
 
															         Train the expert for one step. This method is called by ``ExpertBackend.backward`` after computing gradients.
														
 
															         """
														
 
															+        self.examples_processed += batch_size
														
 
															+
														
 
															         if self.clip_grad_norm is not None:
														
 
															             torch.nn.utils.clip_grad_norm_(self.expert.parameters(), self.clip_grad_norm)
														
 
															         if isinstance(self.optimizer, hivemind.CollaborativeOptimizer):
														
 
															             self.optimizer.step(batch_size)
														
 
															         else:
														
 
															-            self.optimizer.step()
														
 
															-            self.optimizer.zero_grad()
														
 
															+            if self.target_batch_size is None or self.examples_processed % self.target_batch_size == 0:
														
 
															+                self.optimizer.step()
														
 
															+                self.optimizer.zero_grad()
														
 
															-            if self.scheduler is not None:
														
 
															-                self.scheduler.step()
														
 
															+                if self.scheduler is not None:
														
 
															+                    self.scheduler.step()
														
 
															         # TODO update_count is not always incremented if CollaborativeOptimizer is used
														
 
															         self.update_count += 1
														
 
															-        self.examples_processed += batch_size
														
 
															     def get_stats(self) -> Dict:
														
 
															         """