3 年之前 · 648a5d6e1d
--- a/src/client/sequential_autograd.py
+++ b/src/client/sequential_autograd.py
@@ -3,8 +3,8 @@ import logging
 
															 from typing import List, Optional, Sequence, Tuple
														
 
															 import torch
														
 
															-from hivemind import serialize_torch_tensor
														
 
															-from hivemind.moe.client.expert import expert_backward, expert_forward, _forward_stream
														
 
															+from hivemind import deserialize_torch_tensor, serialize_torch_tensor
														
 
															+from hivemind.moe.client.expert import _forward_stream, expert_backward, expert_forward
														
 
															 from hivemind.moe.client.remote_expert_worker import RemoteExpertWorker
														
 
															 from hivemind.p2p import StubBase
														
 
															 from hivemind.utils.nested import nested_compare, nested_flatten, nested_pack
														
@@ -39,11 +39,14 @@ async def run_expert_forward(
 
															     forward_inputs = nested_flatten(forward_inputs)
														
 
															     inputs = tuple(tensor.cpu().detach() for tensor in forward_inputs)
														
 
															+    # Asynchronous serialization
														
 
															     loop = asyncio.get_running_loop()
														
 
															-    serialized_tensors = await asyncio.gather(*(
														
 
															-        loop.run_in_executor(None, serialize_torch_tensor, tensor.to(proto.dtype), proto.compression)
														
 
															-        for tensor, proto in zip(inputs, nested_flatten(rpc_info["forward_schema"]))
														
 
															-    ))
														
 
															+    serialized_tensors = await asyncio.gather(
														
 
															+        *(
														
 
															+            loop.run_in_executor(None, serialize_torch_tensor, tensor.to(proto.dtype), proto.compression)
														
 
															+            for tensor, proto in zip(inputs, nested_flatten(rpc_info["forward_schema"]))
														
 
															+        )
														
 
															+    )
														
 
															     deserialized_outputs = await expert_forward(uid, inputs, serialized_tensors, stub)
														
 
															     flat_outputs = tuple(deserialized_outputs)
														
@@ -67,12 +70,15 @@ async def run_expert_backward(
 
															     inputs_and_grad_outputs = tuple(nested_flatten((intemediate_inputs, grad_outputs_cpu)))
														
 
															     backward_schema = tuple(nested_flatten((rpc_info["forward_schema"], rpc_info["outputs_schema"])))
														
 
															+    # Asynchronous serialization
														
 
															     loop = asyncio.get_running_loop()
														
 
															-    serialized_tensors = await asyncio.gather(*(
														
 
															-        loop.run_in_executor(None, serialize_torch_tensor, tensor.to(proto.dtype), proto.compression)
														
 
															-        for tensor, proto in zip(inputs_and_grad_outputs, backward_schema)
														
 
															-    ))
														
 
															-    
														
 
															+    serialized_tensors = await asyncio.gather(
														
 
															+        *(
														
 
															+            loop.run_in_executor(None, serialize_torch_tensor, tensor.to(proto.dtype), proto.compression)
														
 
															+            for tensor, proto in zip(inputs_and_grad_outputs, backward_schema)
														
 
															+        )
														
 
															+    )
														
 
															+
														
 
															     deserialized_grad_inputs = await expert_backward(uid, inputs_and_grad_outputs, serialized_tensors, stub)
														
 
															     return deserialized_grad_inputs
														
@@ -189,7 +195,7 @@ class _RemoteSequentialAutogradFunction(torch.autograd.Function):
 
															     @staticmethod
														
 
															     def forward(ctx, inputs: torch.Tensor, sequence_manager: RemoteSequenceManager):
														
 
															         batch_size = max(MAX_TOKENS_IN_BATCH // inputs.shape[1], 1)
														
 
															-        input_batches: Sequence[torch.Tensor] = inputs.split(batch_size)
														
 
															+        input_batches: Sequence[torch.Tensor] = inputs.detach().split(batch_size)
														
 
															         sequence_manager.rpc_info  # lazy init
														
 
															         outputs = RemoteExpertWorker.run_coroutine(_gather_forward(input_batches, sequence_manager))
														
@@ -217,6 +223,11 @@ class _RemoteSequentialAutogradFunction(torch.autograd.Function):
 
															         grad_input_batches = RemoteExpertWorker.run_coroutine(
														
 
															             _gather_backward(grad_output_batches, intermediate_input_batches, forward_sequences, ctx.sequence_manager)
														
 
															         )
														
 
															+        # grad_input_batches = [sequential_backward((grad_output,), input_batch, spans, ctx.sequence_manager)
														
 
															+        #     for grad_output, input_batch, spans in zip(
														
 
															+        #         grad_output_batches, intermediate_input_batches, forward_sequences
														
 
															+        #     )
														
 
															+        # ]
														
 
															         grad_inputs = [grad_input_batch[0] for grad_input_batch in grad_input_batches]
														
 
															         grad_inputs = torch.cat(grad_inputs, dim=0)
														
 
															         return (grad_inputs, None)
														
--- a/src/server/backend.py
+++ b/src/server/backend.py
@@ -1,6 +1,6 @@
 
															 """Code for serving bloom blocks via hivemind-server"""
														
 
															 from queue import Empty
														
 
															-from typing import Sequence, Tuple, Optional
														
 
															+from typing import Optional, Sequence, Tuple
														
 
															 import torch
														
 
															 from hivemind import use_hivemind_log_handler
														
--- a/src/server/server.py
+++ b/src/server/server.py
@@ -13,7 +13,7 @@ from hivemind.moe.server.runtime import Runtime
 
															 from hivemind.proto.runtime_pb2 import CompressionType
														
 
															 from hivemind.utils.logging import get_logger, use_hivemind_log_handler
														
 
															-from src import BloomConfig, declare_active_modules, BloomBlock
														
 
															+from src import BloomBlock, BloomConfig, declare_active_modules
														
 
															 from src.bloom.from_pretrained import DTYPE_MAP, load_pretrained_block
														
 
															 from src.data_structures import CHAIN_DELIMITER, UID_DELIMITER, ServerState
														
 
															 from src.dht_utils import get_remote_module_infos
														
@@ -194,10 +194,18 @@ class Server(threading.Thread):
 
															                 module_uid,
														
 
															                 block,
														
 
															                 memory_cache=memory_cache,
														
 
															-                backend_dtype=None if torch_dtype == 'auto' else torch_dtype,
														
 
															-                args_schema=(BatchTensorDescriptor(1, 2048, block_config.hidden_size, dtype=torch.float32, compression=compression),),
														
 
															+                backend_dtype=None if torch_dtype == "auto" else torch_dtype,
														
 
															+                args_schema=(
														
 
															+                    BatchTensorDescriptor(
														
 
															+                        1, 2048, block_config.hidden_size, dtype=torch.float32, compression=compression
														
 
															+                    ),
														
 
															+                ),
														
 
															                 kwargs_schema={},
														
 
															-                outputs_schema=(BatchTensorDescriptor(1, 2048, block_config.hidden_size, dtype=torch.float32, compression=compression),),
														
 
															+                outputs_schema=(
														
 
															+                    BatchTensorDescriptor(
														
 
															+                        1, 2048, block_config.hidden_size, dtype=torch.float32, compression=compression
														
 
															+                    ),
														
 
															+                ),
														
 
															                 min_batch_size=min_batch_size,
														
 
															                 max_batch_size=max_batch_size,
														
 
															             )