3 年之前 · 4cb986f680
--- a/src/server/handler.py
+++ b/src/server/handler.py
@@ -7,6 +7,9 @@ from hivemind import DHT, P2PContext, TensorDescriptor, deserialize_torch_tensor
 
				 from hivemind.moe.server.connection_handler import ConnectionHandler
			
 
				 from hivemind.proto import runtime_pb2
			
 
				 from hivemind.utils.asyncio import anext
			
 
				+from hivemind.utils.streaming import split_for_streaming
			
 
				+from hivemind.p2p.p2p_daemon import DEFAULT_MAX_MSG_SIZE
			
 
				+from hivemind.utils import as_aiter
			
 
				 
			
 
				 from src.data_structures import CHAIN_DELIMITER, ModuleUID
			
 
				 from src.server.backend import MAX_LENGTH, TransformerBackend
			
@@ -67,6 +70,140 @@ class TransformerConnectionHandler(ConnectionHandler):
 
				         finally:
			
 
				             print("CLOSED RPC_INFERENCE")
			
 
				 
			
 
				+    async def rpc_forward(self, request: runtime_pb2.ExpertRequest, context: P2PContext) -> runtime_pb2.ExpertResponse:
			
 
				+        # Parse request and prepare backends
			
 
				+        hidden_states = [deserialize_torch_tensor(tensor) for tensor in request.tensors]
			
 
				+        requested_uids = self._check_header(request)
			
 
				+        requested_backends = tuple(self.module_backends[uid] for uid in requested_uids)
			
 
				+
			
 
				+        # Run a chain of requested backends 
			
 
				+        for backend in requested_backends:
			
 
				+            assert isinstance(hidden_states, (list, tuple))
			
 
				+            assert (
			
 
				+                len(hidden_states) == 1 and hidden_states[0].ndim == 3
			
 
				+            ), f"inputs to {type(backend)} must be a list with a single 3d tensor of hidden states"
			
 
				+            hidden_states = await backend.forward_pool.submit_task(*hidden_states)
			
 
				+        
			
 
				+        # Serialize the overall output and respond
			
 
				+        assert len(hidden_states) == 1 and hidden_states[0].ndim == 3
			
 
				+        return runtime_pb2.ExpertResponse(tensors=[
			
 
				+            serialize_torch_tensor(result, proto.compression, allow_inplace=True)
			
 
				+            for result, proto in zip(
			
 
				+                hidden_states, nested_flatten(requested_backends[-1].outputs_schema)
			
 
				+            )
			
 
				+        ])
			
 
				+
			
 
				+    async def rpc_forward_stream(
			
 
				+        self, requests: AsyncIterator[runtime_pb2.ExpertRequest], context: P2PContext
			
 
				+    ) -> AsyncIterator[runtime_pb2.ExpertRequest]:
			
 
				+        # Parse requests and prepare backends
			
 
				+        uids_header, hidden_states = await self._gather_inputs(requests, context)
			
 
				+        requested_uids = self._check_header_str(uids_header)
			
 
				+        requested_backends = tuple(self.module_backends[uid] for uid in requested_uids)
			
 
				+
			
 
				+        # Run a chain of requested backends 
			
 
				+        for backend in requested_backends:
			
 
				+            assert isinstance(hidden_states, (list, tuple))
			
 
				+            assert (
			
 
				+                len(hidden_states) == 1 and hidden_states[0].ndim == 3
			
 
				+            ), f"inputs to {type(backend)} must be a list with a single 3d tensor of hidden states"
			
 
				+            hidden_states = await backend.forward_pool.submit_task(*hidden_states)
			
 
				+        
			
 
				+        # Serialize the overall output
			
 
				+        assert len(hidden_states) == 1 and hidden_states[0].ndim == 3
			
 
				+        serialized_output = [
			
 
				+            serialize_torch_tensor(result, proto.compression, allow_inplace=True)
			
 
				+            for result, proto in zip(
			
 
				+                hidden_states, nested_flatten(requested_backends[-1].outputs_schema)
			
 
				+            )
			
 
				+        ]
			
 
				+
			
 
				+        # Split the serialized_output for streaming and respond
			
 
				+        output_split = [
			
 
				+            part
			
 
				+            for tensor in serialized_output
			
 
				+            for part in split_for_streaming(tensor, DEFAULT_MAX_MSG_SIZE)
			
 
				+        ]
			
 
				+        async for part in as_aiter(*output_split):
			
 
				+            yield runtime_pb2.ExpertResponse(tensors=[part])
			
 
				+
			
 
				+    async def rpc_backward(
			
 
				+        self, request: runtime_pb2.ExpertRequest, context: P2PContext
			
 
				+    ) -> runtime_pb2.ExpertResponse:
			
 
				+        # Parse requests and prepare backends
			
 
				+        inputs, grads = [deserialize_torch_tensor(tensor) for tensor in request.tensors]
			
 
				+        requested_uids = self._check_header(request)
			
 
				+        requested_backends = tuple(self.module_backends[uid] for uid in requested_uids)
			
 
				+
			
 
				+        # Run a forward chain to collect intermediate inputs
			
 
				+        # Note that we do not forward for the last module since we do not need its output 
			
 
				+        inter_inputs = [inputs]
			
 
				+        for backend in requested_backends[:-1]:
			
 
				+            assert (inputs.ndim == 3
			
 
				+            ), f"inputs to {type(backend)} must be a single 3d tensor of hidden states"
			
 
				+            inputs = await backend.forward_pool.submit_task(inputs)
			
 
				+            assert (isinstance(inputs, (list, tuple)) and len(inputs) == 1)
			
 
				+            inputs = inputs[0]
			
 
				+            inter_inputs.append(inputs)
			
 
				+
			
 
				+        # Run a chain of requested backends
			
 
				+        for inp, backend in zip(inter_inputs[::-1], requested_backends[::-1]):
			
 
				+            inputs_and_grads = [inp, grads]
			
 
				+            grads = await backend.backward_pool.submit_task(*inputs_and_grads)
			
 
				+            assert (isinstance(grads, (list, tuple)) and len(grads) == 1)
			
 
				+            grads = grads[0]
			
 
				+        
			
 
				+        # Serialize the overall grad_input and respond
			
 
				+        return runtime_pb2.ExpertResponse(tensors=[
			
 
				+            serialize_torch_tensor(result, proto.compression, allow_inplace=True)
			
 
				+            for result, proto in zip(
			
 
				+                [grads], nested_flatten(requested_backends[0].grad_inputs_schema)
			
 
				+            )
			
 
				+        ])
			
 
				+
			
 
				+    async def rpc_backward_stream(
			
 
				+        self, requests: AsyncIterator[runtime_pb2.ExpertRequest], context: P2PContext
			
 
				+    ) -> AsyncIterator[runtime_pb2.ExpertResponse]:
			
 
				+        uids_header, inputs_and_grads = await self._gather_inputs(requests, context)
			
 
				+        inputs, grads = inputs_and_grads
			
 
				+        requested_uids = self._check_header_str(uids_header)
			
 
				+        requested_backends = tuple(self.module_backends[uid] for uid in requested_uids)
			
 
				+
			
 
				+        # Run a forward chain to collect intermediate inputs
			
 
				+        # Note that we do not forward for the last module since we do not need its outputs 
			
 
				+        inter_inputs = [inputs]
			
 
				+        for backend in requested_backends[:-1]:
			
 
				+            assert (inputs.ndim == 3
			
 
				+            ), f"inputs to {type(backend)} must be a single 3d tensor of hidden states"
			
 
				+            inputs = await backend.forward_pool.submit_task(inputs)
			
 
				+            assert (isinstance(inputs, (list, tuple)) and len(inputs) == 1)
			
 
				+            inputs = inputs[0]
			
 
				+            inter_inputs.append(inputs)
			
 
				+
			
 
				+         # Run a backward chain for requested backends
			
 
				+        for inp, backend in zip(inter_inputs[::-1], requested_backends[::-1]):
			
 
				+            inputs_and_grads = [inp, grads]
			
 
				+            grads = await backend.backward_pool.submit_task(*inputs_and_grads)
			
 
				+            assert (isinstance(grads, (list, tuple)) and len(grads) == 1)
			
 
				+            grads = grads[0]
			
 
				+        
			
 
				+        # Serialize the overall grad_inputs
			
 
				+        serialized_grad_inputs = [
			
 
				+            serialize_torch_tensor(result, proto.compression, allow_inplace=True)
			
 
				+            for result, proto in zip(
			
 
				+                [grads], nested_flatten(requested_backends[0].grad_inputs_schema)
			
 
				+            )
			
 
				+        ]
			
 
				+        # Split the serialized_grad_inputs for streaming and respond
			
 
				+        output_split = [
			
 
				+            part
			
 
				+            for tensor in serialized_grad_inputs
			
 
				+            for part in split_for_streaming(tensor, DEFAULT_MAX_MSG_SIZE)
			
 
				+        ]
			
 
				+
			
 
				+        async for part in as_aiter(*output_split):
			
 
				+            yield runtime_pb2.ExpertResponse(tensors=[part])
			
 
				+
			
 
				     def _check_header(self, request: runtime_pb2.ExpertRequest) -> Sequence[ModuleUID]:
			
 
				         """Check that the first request to rpc_inference is valid"""
			
 
				         uids = (request.uid or "").split(CHAIN_DELIMITER)
			
@@ -77,6 +214,16 @@ class TransformerConnectionHandler(ConnectionHandler):
 
				                 raise RuntimeError(f"Remote peer does not serve {uid}")
			
 
				         return tuple(uids)
			
 
				 
			
 
				+    def _check_header_str(self, header) -> Sequence[ModuleUID]:
			
 
				+        """Check that the first request to rpc_inference is valid"""
			
 
				+        uids = (header or "").split(CHAIN_DELIMITER)
			
 
				+        if not uids:
			
 
				+            raise RuntimeError("User did not provide any uids")
			
 
				+        for uid in uids:
			
 
				+            if uid not in self.module_backends:
			
 
				+                raise RuntimeError(f"Remote peer does not serve {uid}")
			
 
				+        return tuple(uids)
			
 
				+
			
 
				     @contextlib.asynccontextmanager
			
 
				     async def _allocate_caches(self, backends: Sequence[TransformerBackend]) -> Sequence[int]:
			
 
				         """Allocate memory caches for each transformer block, return cache handles"""
			
--- a/tests/test_chained_forward_backward.py
+++ b/tests/test_chained_forward_backward.py
@@ -0,0 +1,59 @@
 
				+######
			
 
				+# Warning:torch this test is a work in progress. It will be modified soon.
			
 
				+# - if you want more stable tests, see test_block_exact_match
			
 
				+# - if you want to figure out chained inference, ask yozh
			
 
				+
			
 
				+import os
			
 
				+
			
 
				+import hivemind
			
 
				+import torch
			
 
				+from hivemind.moe.expert_uid import ExpertInfo
			
 
				+
			
 
				+from src.bloom.from_pretrained import load_pretrained_block
			
 
				+from src.client.remote_block import RemoteTransformerBlock
			
 
				+from src.dht_utils import get_remote_module
			
 
				+
			
 
				+INITIAL_PEERS = os.environ.get("INITIAL_PEERS")
			
 
				+if not INITIAL_PEERS:
			
 
				+    raise RuntimeError("Must specify INITIAL_PEERS environment variable with one or more peer ids")
			
 
				+INITIAL_PEERS = INITIAL_PEERS.split()
			
 
				+
			
 
				+
			
 
				+BLOCK_UID = os.environ.get("BLOCK_UID")
			
 
				+if not BLOCK_UID:
			
 
				+    raise RuntimeError("Must specify BLOCK_UID as an index of a transformer block to be tested")
			
 
				+
			
 
				+REF_NAME = os.environ.get("REF_NAME", "bigscience/test-bloomd-6b3")
			
 
				+
			
 
				+
			
 
				+# seq_length > 128: rpc_forward_stream & rpc_backward_stream
			
 
				+# seq_length <= 128: rpc_forward & rpc_backward
			
 
				+def test_forward_backward_exact_match(atol_forward=1e-4, atol_backward=1e-4, seq_length=1):
			
 
				+    dht = hivemind.DHT(initial_peers=INITIAL_PEERS, client_mode=True, start=True)
			
 
				+    remote_block, = get_remote_module(dht, BLOCK_UID)
			
 
				+    assert remote_block is not None, f"Could not find {BLOCK_UID} in DHT"
			
 
				+    assert isinstance(remote_block, RemoteTransformerBlock)
			
 
				+    
			
 
				+    _ = remote_block.info  # lazy-init info now, because otherwise we will _break_ info init by chaning _info
			
 
				+    remote_block._info = ExpertInfo("bloom6b3.3 bloom6b3.4 bloom6b3.5", remote_block._info.peer_id)
			
 
				+
			
 
				+    ref_blocks = [
			
 
				+        load_pretrained_block(REF_NAME, 3, torch_dtype=torch.float32),
			
 
				+        load_pretrained_block(REF_NAME, 4, torch_dtype=torch.float32),
			
 
				+        load_pretrained_block(REF_NAME, 5, torch_dtype=torch.float32),
			
 
				+    ]        
			
 
				+    inputs = torch.randn(1, seq_length, 4096, requires_grad=True)
			
 
				+    outputs_rpc = remote_block.forward(inputs)[0]
			
 
				+    outputs_rpc.sum().backward()
			
 
				+    grads_rpc = inputs.grad
			
 
				+
			
 
				+    inputs.grad = None
			
 
				+    hidden_states = inputs
			
 
				+    for ref_block in ref_blocks:
			
 
				+        hidden_states = ref_block.forward(hidden_states)[0]
			
 
				+    outputs_ref = hidden_states
			
 
				+    outputs_ref.sum().backward()
			
 
				+    grads_ref = inputs.grad
			
 
				+
			
 
				+    assert torch.allclose(outputs_ref, outputs_rpc, rtol=0, atol=atol_forward)
			
 
				+    assert torch.allclose(grads_ref, grads_rpc, rtol=0, atol=atol_backward)