4 роки тому · d4d9da9d3e
--- a/hivemind/__init__.py
+++ b/hivemind/__init__.py
@@ -3,4 +3,4 @@ from hivemind.dht import *
 
				 from hivemind.server import *
			
 
				 from hivemind.utils import *
			
 
				 
			
 
				-__version__ = '0.8.3'
			
 
				+__version__ = '0.8.4'
			
--- a/hivemind/client/expert.py
+++ b/hivemind/client/expert.py
@@ -1,6 +1,6 @@
 
				 import pickle
			
 
				 from functools import lru_cache
			
 
				-from typing import Tuple, Optional, Any
			
 
				+from typing import Tuple, Optional, Any, Dict
			
 
				 
			
 
				 import grpc
			
 
				 import grpc.experimental.aio
			
@@ -9,6 +9,7 @@ import torch.nn as nn
 
				 from torch.autograd.function import once_differentiable
			
 
				 
			
 
				 from hivemind.proto import runtime_pb2, runtime_pb2_grpc as runtime_grpc
			
 
				+from hivemind.proto.runtime_pb2 import CompressionType
			
 
				 from hivemind.utils import nested_flatten, nested_pack, nested_compare, Endpoint
			
 
				 from hivemind.utils.grpc import serialize_torch_tensor, deserialize_torch_tensor
			
 
				 
			
@@ -61,7 +62,7 @@ class RemoteExpert(nn.Module):
 
				         if not nested_compare(forward_inputs, self.info['forward_schema']):
			
 
				             raise TypeError(f"Inputs do not match expert input schema. Did you pass the right number of parameters?")
			
 
				 
			
 
				-        flat_outputs = _RemoteModuleCall.apply(DUMMY, self.uid, self.stub, *nested_flatten(forward_inputs))
			
 
				+        flat_outputs = _RemoteModuleCall.apply(DUMMY, self.uid, self.stub, self.info, *nested_flatten(forward_inputs))
			
 
				         # Note: we send DUMMY to prevent torch from excluding expert from backward if no other inputs require grad
			
 
				         return nested_pack(flat_outputs, structure=self.info['outputs_schema'])
			
 
				 
			
@@ -81,14 +82,17 @@ class _RemoteModuleCall(torch.autograd.Function):
 
				 
			
 
				     @staticmethod
			
 
				     def forward(ctx, dummy: torch.Tensor, uid: str, stub: runtime_grpc.ConnectionHandlerStub,
			
 
				-                *inputs: torch.Tensor) -> Tuple[torch.Tensor, ...]:
			
 
				+                info: Dict[str, Any], *inputs: torch.Tensor) -> Tuple[torch.Tensor, ...]:
			
 
				         # Note: *inputs are flattened input tensors that follow the expert's info['input_schema']
			
 
				         inputs = tuple(map(torch.Tensor.detach, inputs))  # detach to avoid pickling the computation graph
			
 
				-        ctx.uid, ctx.stub = uid, stub
			
 
				+        ctx.uid, ctx.stub, ctx.info = uid, stub, info
			
 
				         ctx.save_for_backward(*inputs)
			
 
				 
			
 
				+        serialized_tensors = [serialize_torch_tensor(inp, proto.compression)
			
 
				+                              for inp, proto in zip(inputs, nested_flatten(info["forward_schema"]))]
			
 
				+
			
 
				         outputs = stub.forward(
			
 
				-            runtime_pb2.ExpertRequest(uid=ctx.uid, tensors=[serialize_torch_tensor(tensor) for tensor in inputs]))
			
 
				+            runtime_pb2.ExpertRequest(uid=ctx.uid, tensors=serialized_tensors))
			
 
				 
			
 
				         deserialized_outputs = [deserialize_torch_tensor(tensor) for tensor in outputs.tensors]
			
 
				 
			
@@ -97,10 +101,12 @@ class _RemoteModuleCall(torch.autograd.Function):
 
				     @staticmethod
			
 
				     @once_differentiable
			
 
				     def backward(ctx, *grad_outputs) -> Tuple[Optional[torch.Tensor], ...]:
			
 
				-        payload = tuple(nested_flatten((ctx.saved_tensors, grad_outputs)))
			
 
				+        inputs_and_grad_outputs = tuple(nested_flatten((ctx.saved_tensors, grad_outputs)))
			
 
				+        backward_schema = tuple(nested_flatten((ctx.info["forward_schema"], ctx.info["outputs_schema"])))
			
 
				+        serialized_tensors = [serialize_torch_tensor(tensor, proto.compression)
			
 
				+                              for tensor, proto in zip(inputs_and_grad_outputs, backward_schema)]
			
 
				 
			
 
				-        grad_inputs = ctx.stub.backward(
			
 
				-            runtime_pb2.ExpertRequest(uid=ctx.uid, tensors=[serialize_torch_tensor(tensor) for tensor in payload]))
			
 
				+        grad_inputs = ctx.stub.backward(runtime_pb2.ExpertRequest(uid=ctx.uid, tensors=serialized_tensors))
			
 
				 
			
 
				         deserialized_grad_inputs = [deserialize_torch_tensor(tensor) for tensor in grad_inputs.tensors]
			
 
				-        return (DUMMY, None, None, *deserialized_grad_inputs)
			
 
				+        return (DUMMY, None, None, None, *deserialized_grad_inputs)
			
--- a/hivemind/client/moe.py
+++ b/hivemind/client/moe.py
@@ -2,7 +2,7 @@ from __future__ import annotations
 
				 
			
 
				 import asyncio
			
 
				 import time
			
 
				-from typing import Tuple, List, Optional, Awaitable, Set, Dict
			
 
				+from typing import Tuple, List, Optional, Awaitable, Set, Dict, Any
			
 
				 
			
 
				 import grpc.experimental.aio
			
 
				 import torch
			
@@ -58,7 +58,7 @@ class RemoteMixtureOfExperts(nn.Module):
 
				         self.allow_broadcasting = allow_broadcasting
			
 
				 
			
 
				         self.proj = nn.Linear(in_features, sum(grid_size))  # jointly predict logits for all grid dimensions
			
 
				-        self._outputs_schema = None  # expert['info'][outputs_schema] from one of experts in the grid
			
 
				+        self._expert_info = None  # expert['info'] from one of experts in the grid
			
 
				 
			
 
				     def forward(self, input: torch.Tensor, *args: torch.Tensor, **kwargs: torch.Tensor):
			
 
				         """
			
@@ -88,8 +88,8 @@ class RemoteMixtureOfExperts(nn.Module):
 
				         # ^-- List[batch_size] of List[RemoteExpert] chosen for every input in batch
			
 
				 
			
 
				         expert_mask, *expert_outputs = _RemoteCallMany.apply(
			
 
				-            DUMMY, chosen_experts, self.k_min, self.backward_k_min, self.timeout_after_k_min,
			
 
				-            self.forward_timeout, self.backward_timeout, self.loop, *nested_flatten(((input, *args), kwargs)))
			
 
				+            DUMMY, chosen_experts, self.k_min, self.backward_k_min, self.timeout_after_k_min, self.forward_timeout,
			
 
				+            self.backward_timeout, self.loop, self.info, *nested_flatten(((input, *args), kwargs)))
			
 
				         # ^-- multiple tensors of shape [batch_size, max_experts, ...output_shape]
			
 
				 
			
 
				         expert_logits = self.compute_expert_scores(grid_scores, chosen_experts)
			
@@ -99,7 +99,7 @@ class RemoteMixtureOfExperts(nn.Module):
 
				         averaged_outputs_flat = [
			
 
				             (expert_weights[..., None] * tensor.flatten(start_dim=2)).view(tensor.shape).sum(dim=1)
			
 
				             for tensor in expert_outputs]  # ^-- multiply by softmax weights along first 2 axes
			
 
				-        return nested_pack(averaged_outputs_flat, self.outputs_schema)
			
 
				+        return nested_pack(averaged_outputs_flat, self.info['outputs_schema'])
			
 
				 
			
 
				     async def beam_search(self, grid_scores: List[torch.Tensor], k_best: int, **kwargs) -> List[RemoteExpert]:
			
 
				         """
			
@@ -139,9 +139,9 @@ class RemoteMixtureOfExperts(nn.Module):
 
				             beam_scores = expanded_scores[tuple(zip(*map(candidate_to_indices.get, beam)))]
			
 
				             beam_experts = list(best_alive_prefixes.values())
			
 
				 
			
 
				-        if self._outputs_schema is None:
			
 
				+        if self._expert_info is None:
			
 
				             try:
			
 
				-                self._outputs_schema = beam_experts[0].info['outputs_schema']
			
 
				+                self._expert_info = beam_experts[0].info
			
 
				             except grpc.RpcError as e:
			
 
				                 logger.warning(f"Failed to get RemoteMixtureOfExperts.output_shape: {e}")
			
 
				 
			
@@ -182,15 +182,15 @@ class RemoteMixtureOfExperts(nn.Module):
 
				         return scores
			
 
				 
			
 
				     @property
			
 
				-    def outputs_schema(self):
			
 
				-        if self._outputs_schema is None:
			
 
				+    def info(self):
			
 
				+        if self._expert_info is None:
			
 
				             # grab some expert to set ensemble output shape
			
 
				             proj_device = self.proj.weight.device
			
 
				             dummy_scores_concat = self.proj(torch.randn(1, self.proj.in_features, device=proj_device))
			
 
				             dummy_scores = dummy_scores_concat.cpu().split_with_sizes(self.grid_size, dim=-1)
			
 
				             dummy_experts = self.loop.run_until_complete(self.beam_search(dummy_scores, k_best=1))
			
 
				-            self._outputs_schema = dummy_experts[0].info['outputs_schema']
			
 
				-        return self._outputs_schema
			
 
				+            self._expert_info = dummy_experts[0].info
			
 
				+        return self._expert_info
			
 
				 
			
 
				 
			
 
				 class _RemoteCallMany(torch.autograd.Function):
			
@@ -206,7 +206,7 @@ class _RemoteCallMany(torch.autograd.Function):
 
				     @classmethod
			
 
				     def forward(cls, ctx, dummy, experts_per_sample: List[List[RemoteExpert]], k_min: int, backward_k_min: int,
			
 
				                 timeout_after_k_min: float, forward_timeout: Optional[float], backward_timeout: Optional[float],
			
 
				-                loop: asyncio.base_events.BaseEventLoop, *flat_inputs: torch.Tensor) -> Tuple[torch.Tensor]:
			
 
				+                loop: asyncio.base_events.BaseEventLoop, info: Dict[str, Any], *flat_inputs: torch.Tensor) -> Tuple[torch.Tensor]:
			
 
				         assert not torch.is_grad_enabled()
			
 
				         num_samples, max_experts = len(experts_per_sample), max(map(len, experts_per_sample))
			
 
				         flat_inputs_per_sample: List[Tuple[torch.Tensor, ...]] = list(zip(*(x.split(1, dim=0) for x in flat_inputs)))
			
@@ -215,7 +215,7 @@ class _RemoteCallMany(torch.autograd.Function):
 
				         async def _forward():
			
 
				             # dispatch tasks to all remote experts, await responses
			
 
				             pending_tasks = {
			
 
				-                asyncio.create_task(cls._forward_one_expert((i, j), expert, flat_inputs_per_sample[i]))
			
 
				+                asyncio.create_task(cls._forward_one_expert((i, j), expert, info, flat_inputs_per_sample[i]))
			
 
				                 for i in range(num_samples) for j, expert in enumerate(experts_per_sample[i])
			
 
				             }
			
 
				             alive_grid_indices, alive_flat_outputs = await cls._wait_for_responses(
			
@@ -239,7 +239,8 @@ class _RemoteCallMany(torch.autograd.Function):
 
				 
			
 
				             # save individual outputs for backward pass
			
 
				             ctx.save_for_backward(alive_ii, alive_jj, *flat_inputs)
			
 
				-            ctx._saved_non_tensors = loop, backward_k_min, backward_timeout, timeout_after_k_min, experts_per_sample
			
 
				+            ctx._saved_non_tensors = loop, info, backward_k_min, backward_timeout,\
			
 
				+                                     timeout_after_k_min, experts_per_sample
			
 
				             return (mask,) + tuple(outputs)
			
 
				 
			
 
				         return loop.run_until_complete(_forward())
			
@@ -248,7 +249,7 @@ class _RemoteCallMany(torch.autograd.Function):
 
				     @once_differentiable
			
 
				     def backward(cls, ctx, *raw_grads: torch.Tensor) -> Tuple[Optional[torch.Tensor], ...]:
			
 
				         assert not torch.is_grad_enabled()
			
 
				-        loop, backward_k_min, backward_timeout, timeout_after_k_min, expert_per_sample = ctx._saved_non_tensors
			
 
				+        loop, info, backward_k_min, backward_timeout, timeout_after_k_min, expert_per_sample = ctx._saved_non_tensors
			
 
				         alive_ii, alive_jj, *flat_inputs = ctx.saved_tensors
			
 
				         dummy_grad_mask, *flat_grad_outputs = raw_grads
			
 
				         num_samples, max_experts = dummy_grad_mask.shape
			
@@ -261,8 +262,8 @@ class _RemoteCallMany(torch.autograd.Function):
 
				             pending_tasks = set()
			
 
				             for i, j, inputs_ij, grad_outputs_ij in zip(alive_ii.cpu().numpy(), alive_jj.cpu().numpy(),
			
 
				                                                         inputs_per_expert, grad_outputs_per_expert):
			
 
				-                pending_tasks.add(asyncio.create_task(
			
 
				-                    cls._backward_one_expert((i, j), expert_per_sample[i.item()][j.item()], inputs_ij, grad_outputs_ij)))
			
 
				+                pending_tasks.add(asyncio.create_task(cls._backward_one_expert(
			
 
				+                    (i, j), expert_per_sample[i.item()][j.item()], info, inputs_ij, grad_outputs_ij)))
			
 
				 
			
 
				             backward_survivor_indices, survivor_grad_inputs = await cls._wait_for_responses(
			
 
				                 pending_tasks, num_samples, backward_k_min, backward_timeout, timeout_after_k_min)
			
@@ -281,28 +282,32 @@ class _RemoteCallMany(torch.autograd.Function):
 
				 
			
 
				                 grad_inputs.append(grad_input_per_expert.sum(dim=1))  # add up gradients from each expert
			
 
				 
			
 
				-            return (DUMMY, None, None, None, None, None, None, None, *grad_inputs)
			
 
				+            return (DUMMY, None, None, None, None, None, None, None, None, *grad_inputs)
			
 
				 
			
 
				         return loop.run_until_complete(_backward())
			
 
				 
			
 
				     @staticmethod
			
 
				-    async def _forward_one_expert(grid_indices: Tuple[int, ...], expert: RemoteExpert, inputs: Tuple[torch.Tensor]):
			
 
				+    async def _forward_one_expert(
			
 
				+            grid_indices: Tuple[int, ...], expert: RemoteExpert, info: Dict[str, Any], inputs: Tuple[torch.Tensor]):
			
 
				         stub: runtime_grpc.ConnectionHandlerStub = _get_expert_stub(expert.endpoint, aio=True)
			
 
				         try:
			
 
				             outputs = await stub.forward(runtime_pb2.ExpertRequest(
			
 
				-                uid=expert.uid, tensors=[serialize_torch_tensor(tensor) for tensor in inputs]))
			
 
				+                uid=expert.uid, tensors=[serialize_torch_tensor(tensor, proto.compression) for tensor, proto in 
			
 
				+                                         zip(inputs, nested_flatten(info['forward_schema']))]))
			
 
				             return grid_indices, tuple(deserialize_torch_tensor(tensor) for tensor in outputs.tensors)
			
 
				         except grpc.experimental.aio.AioRpcError as error:
			
 
				             logger.warning(f"RemoteExpert {expert} failed forward: {error.code()} (inputs: {inputs})")
			
 
				 
			
 
				     @staticmethod
			
 
				-    async def _backward_one_expert(grid_indices: Tuple[int, ...], expert: RemoteExpert,
			
 
				+    async def _backward_one_expert(grid_indices: Tuple[int, ...], expert: RemoteExpert, info: Dict[str, Any],
			
 
				                                    inputs: Tuple[torch.Tensor], grad_outputs: Tuple[torch.Tensor]):
			
 
				         stub: runtime_grpc.ConnectionHandlerStub = _get_expert_stub(expert.endpoint, aio=True)
			
 
				-        payload = tuple(nested_flatten((inputs, grad_outputs)))
			
 
				+        inputs_and_grad_outputs = tuple(nested_flatten((inputs, grad_outputs)))
			
 
				+        backward_schema = tuple(nested_flatten((info["forward_schema"], info["outputs_schema"])))
			
 
				         try:
			
 
				             grad_inputs = await stub.backward(runtime_pb2.ExpertRequest(
			
 
				-                uid=expert.uid, tensors=[serialize_torch_tensor(tensor) for tensor in payload]))
			
 
				+                uid=expert.uid, tensors=[serialize_torch_tensor(tensor, proto.compression)
			
 
				+                                         for tensor, proto in zip(inputs_and_grad_outputs, backward_schema)]))
			
 
				             return grid_indices, tuple(deserialize_torch_tensor(tensor) for tensor in grad_inputs.tensors)
			
 
				         except grpc.experimental.aio.AioRpcError as error:
			
 
				             logger.warning(f"RemoteExpert {expert} failed backward: {error.code()} ({inputs}, {grad_outputs})")
			
--- a/hivemind/proto/runtime.proto
+++ b/hivemind/proto/runtime.proto
@@ -26,10 +26,16 @@ message ExpertResponse {
 
				   repeated Tensor tensors = 2;
			
 
				 }
			
 
				 
			
 
				+enum CompressionType{
			
 
				+  NONE = 0;
			
 
				+  MEANSTD_LAST_AXIS_FLOAT16 = 1;
			
 
				+}
			
 
				+
			
 
				 message Tensor {
			
 
				   bytes buffer = 1;
			
 
				   repeated uint32 size = 2;
			
 
				   bool requires_grad = 3;
			
 
				   string dtype = 4;
			
 
				+  CompressionType compression = 5;
			
 
				 }
			
 
				 
			
--- a/hivemind/server/connection_handler.py
+++ b/hivemind/server/connection_handler.py
@@ -10,7 +10,7 @@ import uvloop
 
				 
			
 
				 from hivemind.proto import runtime_pb2, runtime_pb2_grpc as runtime_grpc
			
 
				 from hivemind.server.expert_backend import ExpertBackend
			
 
				-from hivemind.utils import get_logger, serialize_torch_tensor, deserialize_torch_tensor, Endpoint
			
 
				+from hivemind.utils import get_logger, serialize_torch_tensor, deserialize_torch_tensor, Endpoint, nested_flatten
			
 
				 
			
 
				 logger = get_logger(__name__)
			
 
				 
			
@@ -60,11 +60,14 @@ class ConnectionHandler(mp.Process):
 
				     async def forward(self, request: runtime_pb2.ExpertRequest, context: grpc.ServicerContext):
			
 
				         inputs = [deserialize_torch_tensor(tensor) for tensor in request.tensors]
			
 
				         future = self.experts[request.uid].forward_pool.submit_task(*inputs)
			
 
				-        serialized_response = [serialize_torch_tensor(tensor) for tensor in await future]
			
 
				+        serialized_response = [serialize_torch_tensor(tensor, proto.compression, allow_inplace=True) for tensor, proto
			
 
				+                               in zip(await future, nested_flatten(self.experts[request.uid].outputs_schema))]
			
 
				+
			
 
				         return runtime_pb2.ExpertResponse(tensors=serialized_response)
			
 
				 
			
 
				     async def backward(self, request: runtime_pb2.ExpertRequest, context: grpc.ServicerContext):
			
 
				         inputs_and_grad_outputs = [deserialize_torch_tensor(tensor) for tensor in request.tensors]
			
 
				         future = self.experts[request.uid].backward_pool.submit_task(*inputs_and_grad_outputs)
			
 
				-        serialized_response = [serialize_torch_tensor(tensor) for tensor in await future]
			
 
				+        serialized_response = [serialize_torch_tensor(tensor, proto.compression, allow_inplace=True) for tensor, proto
			
 
				+                               in zip(await future, nested_flatten(self.experts[request.uid].grad_inputs_schema))]
			
 
				         return runtime_pb2.ExpertResponse(tensors=serialized_response)
			
--- a/hivemind/server/expert_backend.py
+++ b/hivemind/server/expert_backend.py
@@ -53,9 +53,11 @@ class ExpertBackend(nn.Module):
 
				             dummy_outputs = self.expert(*dummy_args, **dummy_kwargs)
			
 
				             outputs_schema = nested_map(BatchTensorDescriptor.from_tensor, dummy_outputs)
			
 
				 
			
 
				-        self.outputs_schema = outputs_schema
			
 
				-        self.forward_schema = (self.args_schema, self.kwargs_schema)
			
 
				-        self.backward_schema = (self.forward_schema, self.outputs_schema)  # original inputs and grad w.r.t. outputs
			
 
				+        self.forward_schema = (self.args_schema, self.kwargs_schema)  # inputs for forward
			
 
				+        self.outputs_schema = outputs_schema  # outputs from forward
			
 
				+
			
 
				+        self.backward_schema = (self.forward_schema, self.outputs_schema)  # inputs to backward
			
 
				+        self.grad_inputs_schema = self.forward_schema  # outputs from backward
			
 
				         self.forward_pool = TaskPool(self.forward, uid=f'{self.name}_forward', **kwargs)
			
 
				         self.backward_pool = TaskPool(self.backward, uid=f'{self.name}_backward', **kwargs)
			
 
				 
			
--- a/hivemind/utils/grpc.py
+++ b/hivemind/utils/grpc.py
@@ -6,19 +6,58 @@ import numpy as np
 
				 import torch
			
 
				 
			
 
				 from hivemind.proto import runtime_pb2
			
 
				+from hivemind.proto.runtime_pb2 import CompressionType
			
 
				 
			
 
				+FP16_MAX = 65_504
			
 
				+
			
 
				+
			
 
				+def serialize_torch_tensor(tensor: torch.Tensor, compression_type=CompressionType.NONE, 
			
 
				+                           allow_inplace=False) -> runtime_pb2.Tensor:
			
 
				+    if compression_type == CompressionType.MEANSTD_LAST_AXIS_FLOAT16:
			
 
				+        assert tensor.dtype == torch.float32
			
 
				+
			
 
				+        tensor = tensor if allow_inplace else tensor.clone()
			
 
				+        means = torch.mean(tensor, dim=-1, keepdim=True)
			
 
				+        tensor.sub_(means)
			
 
				+
			
 
				+        stds = torch.square(tensor).sum(dim=-1, keepdim=True).div_(tensor.shape[-1]).sqrt_()
			
 
				+        tensor.div_(stds)
			
 
				+        tensor = tensor.clamp_(-FP16_MAX, FP16_MAX).to(torch.float16)
			
 
				+
			
 
				+        data = b''.join((tensor.numpy().tobytes(), means.numpy().tobytes(), stds.numpy().tobytes()))
			
 
				+
			
 
				+        proto = runtime_pb2.Tensor(
			
 
				+            compression=compression_type,
			
 
				+            buffer=data,
			
 
				+            size=tensor.shape,
			
 
				+            dtype='compressed_float32',
			
 
				+            requires_grad=tensor.requires_grad)
			
 
				+    else:
			
 
				+        array = tensor.numpy()
			
 
				+        proto = runtime_pb2.Tensor(
			
 
				+            compression=compression_type,
			
 
				+            buffer=array.tobytes(),
			
 
				+            size=array.shape,
			
 
				+            dtype=array.dtype.name,
			
 
				+            requires_grad=tensor.requires_grad)
			
 
				 
			
 
				-def serialize_torch_tensor(tensor: torch.Tensor) -> runtime_pb2.Tensor:
			
 
				-    array = tensor.numpy()
			
 
				-    proto = runtime_pb2.Tensor(
			
 
				-        buffer=array.tobytes(),
			
 
				-        size=array.shape,
			
 
				-        dtype=array.dtype.name,
			
 
				-        requires_grad=tensor.requires_grad)
			
 
				     return proto
			
 
				 
			
 
				 
			
 
				-def deserialize_torch_tensor(tensor: runtime_pb2.Tensor) -> torch.Tensor:
			
 
				+def deserialize_torch_tensor(serialized_tensor: runtime_pb2.Tensor) -> torch.Tensor:
			
 
				     # TODO avoid copying the array (need to silence pytorch warning, because array is not writable)
			
 
				-    array = np.frombuffer(tensor.buffer, dtype=np.dtype(tensor.dtype)).copy()
			
 
				-    return torch.as_tensor(array).view(tuple(tensor.size)).requires_grad_(tensor.requires_grad)
			
 
				+    if serialized_tensor.compression == CompressionType.NONE:
			
 
				+        array = np.frombuffer(serialized_tensor.buffer, dtype=np.dtype(serialized_tensor.dtype)).copy()
			
 
				+        tensor = torch.as_tensor(array).view(*serialized_tensor.size).requires_grad_(serialized_tensor.requires_grad)
			
 
				+    elif serialized_tensor.compression == CompressionType.MEANSTD_LAST_AXIS_FLOAT16:
			
 
				+        stats_size = list(serialized_tensor.size)
			
 
				+        stats_size[-1] = 1
			
 
				+        stats_count = np.prod(stats_size)
			
 
				+        means, stds = serialized_tensor.buffer[-8*stats_count:-4*stats_count], serialized_tensor.buffer[-4*stats_count:]
			
 
				+        means = torch.as_tensor(np.frombuffer(means, dtype=np.float32)).view(*stats_size)
			
 
				+        stds = torch.as_tensor(np.frombuffer(stds, dtype=np.float32)).view(*stats_size)
			
 
				+        array = np.frombuffer(serialized_tensor.buffer[:-8 * stats_count], dtype=np.float16)
			
 
				+        tensor = torch.as_tensor(array).to(torch.float32).view(*serialized_tensor.size).mul_(stds).add_(means)
			
 
				+    else:
			
 
				+        raise ValueError(f"Unknown compression type: {serialized_tensor.compression}")
			
 
				+    return tensor
			
--- a/hivemind/utils/tensor_descr.py
+++ b/hivemind/utils/tensor_descr.py
@@ -2,6 +2,8 @@ from dataclasses import dataclass, asdict
 
				 
			
 
				 import torch
			
 
				 
			
 
				+from hivemind.proto.runtime_pb2 import CompressionType
			
 
				+
			
 
				 DUMMY_BATCH_SIZE = 3  # used for dummy runs only
			
 
				 
			
 
				 
			
@@ -18,6 +20,7 @@ class TensorDescriptor(DescriptorBase):
 
				     device: torch.device = None
			
 
				     requires_grad: bool = False
			
 
				     pin_memory: bool = False
			
 
				+    compression: CompressionType = CompressionType.NONE
			
 
				 
			
 
				     @property
			
 
				     def shape(self):
			
--- a/tests/test_moe.py
+++ b/tests/test_moe.py
@@ -45,7 +45,7 @@ def test_call_many():
 
				         mask, expert_outputs = hivemind.client.moe._RemoteCallMany.apply(
			
 
				             DUMMY, [[e0, e1, e2], [e2, e4], [e1, e5, e3], []],
			
 
				             k_min, backward_k_min, timeout_after_k_min, forward_timeout, backward_timeout,
			
 
				-            asyncio.new_event_loop(), inputs
			
 
				+            asyncio.new_event_loop(), e1.info, inputs
			
 
				         )
			
 
				         assert mask.shape == (4, 3)
			
 
				         assert expert_outputs.shape == (4, 3, 64)
			
--- a/tests/test_util_modules.py
+++ b/tests/test_util_modules.py
@@ -1,4 +1,5 @@
 
				 import asyncio
			
 
				+import torch
			
 
				 
			
 
				 import pytest
			
 
				 import hivemind
			
@@ -81,6 +82,7 @@ def test_await_mpfuture():
 
				     async def _run():
			
 
				         # await result
			
 
				         f1, f2 = hivemind.MPFuture.make_pair()
			
 
				+
			
 
				         async def wait_and_assign():
			
 
				             assert f2.set_running_or_notify_cancel() is True
			
 
				             await asyncio.sleep(0.1)
			
@@ -93,6 +95,7 @@ def test_await_mpfuture():
 
				 
			
 
				         # await cancel
			
 
				         f1, f2 = hivemind.MPFuture.make_pair()
			
 
				+
			
 
				         async def wait_and_cancel():
			
 
				             await asyncio.sleep(0.1)
			
 
				             f1.cancel()
			
@@ -104,6 +107,7 @@ def test_await_mpfuture():
 
				 
			
 
				         # await exception
			
 
				         f1, f2 = hivemind.MPFuture.make_pair()
			
 
				+
			
 
				         async def wait_and_raise():
			
 
				             await asyncio.sleep(0.1)
			
 
				             f1.set_exception(SystemError())
			
@@ -114,3 +118,15 @@ def test_await_mpfuture():
 
				                 await future
			
 
				 
			
 
				     asyncio.new_event_loop().run_until_complete(_run())
			
 
				+
			
 
				+
			
 
				+def test_vector_compression(size=(128, 128, 64), alpha=5e-08):
			
 
				+    torch.manual_seed(0)
			
 
				+    from hivemind.proto.runtime_pb2 import CompressionType
			
 
				+    from hivemind.utils import serialize_torch_tensor, deserialize_torch_tensor
			
 
				+    X = torch.randn(*size)
			
 
				+    assert torch.allclose(deserialize_torch_tensor(serialize_torch_tensor(X, CompressionType.NONE)), X)
			
 
				+    error = deserialize_torch_tensor(serialize_torch_tensor(X, CompressionType.MEANSTD_LAST_AXIS_FLOAT16))-X
			
 
				+    assert error.square().mean() < alpha
			
 
				+    return error.square().mean()
			
 
				+