3 년 전 · de0bc00a3f
--- a/hivemind/moe/client/moe.py
+++ b/hivemind/moe/client/moe.py
@@ -245,7 +245,7 @@ class _RemoteCallMany(torch.autograd.Function):
 
				         else:
			
 
				             outputs_schema = info["outputs_schema"]
			
 
				         outputs = nested_map(
			
 
				-            lambda descriptor: descriptor.make_empty(num_samples, max_experts, device=flat_inputs[0].device).zero_(),
			
 
				+            lambda descriptor: descriptor.make_zeros(num_samples, max_experts, device=flat_inputs[0].device),
			
 
				             outputs_schema,
			
 
				         )
			
 
				 
			
@@ -341,7 +341,7 @@ class _RemoteCallMany(torch.autograd.Function):
 
				         # torch tensors, i-th tensor is of shape [num_backward_survivors, *flat_inputs_cpu[i].shape]
			
 
				 
			
 
				         grad_inputs = nested_map(
			
 
				-            lambda descr: descr.make_empty(num_samples, device=flat_grad_outputs[0].device).zero_(),
			
 
				+            lambda descr: descr.make_zeros(num_samples, device=flat_grad_outputs[0].device),
			
 
				             list(nested_flatten(info["forward_schema"])),
			
 
				         )
			
 
				 
			
--- a/hivemind/moe/server/expert_backend.py
+++ b/hivemind/moe/server/expert_backend.py
@@ -74,8 +74,8 @@ class ExpertBackend:
 
				 
			
 
				         if outputs_schema is None:
			
 
				             # run expert once to get outputs schema
			
 
				-            dummy_args = tuple(sample.make_empty(DUMMY_BATCH_SIZE) for sample in args_schema)
			
 
				-            dummy_kwargs = {key: sample.make_empty(DUMMY_BATCH_SIZE) for key, sample in kwargs_schema.items()}
			
 
				+            dummy_args = tuple(sample.make_zeros(DUMMY_BATCH_SIZE) for sample in args_schema)
			
 
				+            dummy_kwargs = {key: sample.make_zeros(DUMMY_BATCH_SIZE) for key, sample in kwargs_schema.items()}
			
 
				             dummy_outputs = self.expert(*dummy_args, **dummy_kwargs)
			
 
				             outputs_schema = nested_map(BatchTensorDescriptor.from_tensor, dummy_outputs)
			
 
				 
			
--- a/hivemind/utils/tensor_descr.py
+++ b/hivemind/utils/tensor_descr.py
@@ -46,11 +46,11 @@ class TensorDescriptor(DescriptorBase):
 
				             tensor.shape, tensor.dtype, tensor.layout, tensor.device, tensor.requires_grad, _safe_check_pinned(tensor)
			
 
				         )
			
 
				 
			
 
				-    def make_empty(self, **kwargs):
			
 
				+    def make_zeros(self, **kwargs):
			
 
				         properties = asdict(self)
			
 
				         properties.update(kwargs)
			
 
				         properties.pop("compression")
			
 
				-        return torch.empty(**properties)
			
 
				+        return torch.zeros(**properties)
			
 
				 
			
 
				 
			
 
				 def _str_to_torch_type(name: str, torch_type: type):
			
@@ -86,9 +86,9 @@ class BatchTensorDescriptor(TensorDescriptor):
 
				             compression=compression if tensor.is_floating_point() else CompressionType.NONE,
			
 
				         )
			
 
				 
			
 
				-    def make_empty(self, *batch_size: int, **kwargs) -> torch.Tensor:
			
 
				+    def make_zeros(self, *batch_size: int, **kwargs) -> torch.Tensor:
			
 
				         assert self.shape[0] is None, "Make sure 0-th dimension is not specified (set to None)"
			
 
				-        return super().make_empty(size=(*batch_size, *self.shape[1:]), **kwargs)
			
 
				+        return super().make_zeros(size=(*batch_size, *self.shape[1:]), **kwargs)
			
 
				 
			
 
				     def packb(self) -> bytes:
			
 
				         obj_dict = asdict(self)