4 years ago · 0ff0c689e8
--- a/hivemind/moe/server/__init__.py
+++ b/hivemind/moe/server/__init__.py
@@ -255,7 +255,7 @@ class Server(threading.Thread):
 
															             optim = OffloadOptimizer(
														
 
															                 optimizer_grouped_parameters,
														
 
															                 optim_cls=LambWithGradientClipping,
														
 
															-                lr=0.00176,
														
 
															+                lr=0.0035355339059327377,
														
 
															                 betas=(0.9, 0.999),
														
 
															                 eps=1e-6,
														
 
															                 weight_decay=0.01,
														
--- a/hivemind/moe/server/expert_backend.py
+++ b/hivemind/moe/server/expert_backend.py
@@ -96,7 +96,6 @@ class ExpertBackend:
 
															         self.update_count = 0
														
 
															         self.examples_processed = 0
														
 
															-    @torch.cuda.amp.autocast()
														
 
															     def forward(self, *inputs: torch.Tensor) -> Tuple[torch.Tensor, ...]:
														
 
															         """
														
 
															         Apply forward pass to an aggregated batch of requests. Used by Runtime, do not call this manually;
														
@@ -122,7 +121,6 @@ class ExpertBackend:
 
															         # Note: TaskPool requires function to accept and return a flat tuple of values, we pack/unpack it on client side
														
 
															         return tuple(nested_flatten(outputs))
														
 
															-    @torch.cuda.amp.autocast()
														
 
															     def backward(self, *inputs: torch.Tensor) -> Tuple[torch.Tensor, ...]:
														
 
															         """
														
 
															         Apply backward pass to an aggregated batch of requests. Used by Runtime, do not call this manually