1 年之前 · e5c2d8eca4
--- a/src/petals/client/remote_forward_backward.py
+++ b/src/petals/client/remote_forward_backward.py
@@ -5,7 +5,7 @@ import asyncio
 
				 from typing import Iterable, List, Optional, Sequence, Tuple
			
 
				 
			
 
				 import torch
			
 
				-from hivemind import nested_compare, nested_flatten, nested_pack, serialize_torch_tensor
			
 
				+from hivemind import nested_compare, nested_flatten, nested_pack, serialize_torch_tensor, PeerID
			
 
				 from hivemind.compression.serialization import deserialize_tensor_stream, deserialize_torch_tensor
			
 
				 from hivemind.p2p import StubBase
			
 
				 from hivemind.p2p.p2p_daemon_bindings.control import DEFAULT_MAX_MSG_SIZE, MAX_UNARY_PAYLOAD_SIZE
			
@@ -14,8 +14,11 @@ from hivemind.utils.asyncio import aiter_with_timeout, iter_as_aiter
 
				 from hivemind.utils.streaming import split_for_streaming
			
 
				 from hivemind.utils.tensor_descr import BatchTensorDescriptor
			
 
				 
			
 
				+from petals import RemoteSequenceManager
			
 
				 from petals.client.config import ClientConfig
			
 
				-from petals.data_structures import ModuleUID, RPCInfo
			
 
				+from petals.data_structures import ModuleUID, RPCInfo, CHAIN_DELIMITER
			
 
				+from petals.server.handler import TransformerConnectionHandler
			
 
				+from petals.utils.packaging import pack_args_kwargs
			
 
				 
			
 
				 
			
 
				 async def _forward_unary(
			
@@ -65,73 +68,74 @@ async def _backward_stream(
 
				 
			
 
				 
			
 
				 async def run_remote_forward(
			
 
				-    uid: ModuleUID,
			
 
				-    stub: StubBase,
			
 
				-    rpc_info: RPCInfo,
			
 
				-    *forward_inputs: torch.Tensor,
			
 
				-    config: ClientConfig,
			
 
				-    metadata: Optional[bytes] = None,
			
 
				+    sequence_manager: RemoteSequenceManager,
			
 
				+    peer_id: PeerID,
			
 
				+    span_uids: Sequence[ModuleUID],
			
 
				+    *args: torch.Tensor,
			
 
				+    **kwargs: torch.Tensor,
			
 
				 ) -> Tuple[torch.Tensor, ...]:
			
 
				     """
			
 
				     Serializes input tensors and calls "rpc_forward" on a remote server.
			
 
				     Mostly adapted from https://github.com/learning-at-home/hivemind/blob/7a7c93aefffc9494c39e7b170c07cb06d8c09c4c/hivemind/moe/client/expert.py#L198
			
 
				     but without RemoteExpertWorker.run_coroutine() call that leads to deadlock here.
			
 
				     """
			
 
				-    args_schema, kwargs_schema = rpc_info["forward_schema"]
			
 
				-    compression = args_schema[0].compression
			
 
				-    forward_schema = tuple(BatchTensorDescriptor.from_tensor(arg, compression) for arg in forward_inputs)
			
 
				-    inputs = tuple(tensor.cpu().detach() for tensor in forward_inputs)
			
 
				+    merged_uid = CHAIN_DELIMITER.join(span_uids)
			
 
				+    stub = TransformerConnectionHandler.get_stub(sequence_manager.state.p2p, peer_id)
			
 
				+    flat_inputs, args_structure = pack_args_kwargs(*args, **kwargs)
			
 
				+    metadata = sequence_manager.get_request_metadata(peer_id, "rpc_forward", span_uids, *args, **kwargs)
			
 
				+    compressions = sequence_manager.get_compression_codecs(peer_id, "rpc_forward", span_uids, *args, **kwargs)
			
 
				+    if compressions is None:
			
 
				+        compressions = [runtime_pb2.CompressionType.NONE] * len(flat_inputs)
			
 
				+    compressions = list(nested_flatten(compressions))
			
 
				+    assert len(compressions) == len(flat_inputs), f"got {len(flat_inputs)} tensors but {len(compressions)} codecs"
			
 
				+    inputs = tuple(tensor.cpu().detach().requires_grad_(tensor.requires_grad) for tensor in flat_inputs)
			
 
				+
			
 
				     # Asynchronous serialization
			
 
				     loop = asyncio.get_running_loop()
			
 
				     serialized_tensors = await asyncio.gather(
			
 
				         *(
			
 
				-            loop.run_in_executor(None, serialize_torch_tensor, tensor.to(proto.dtype), proto.compression)
			
 
				-            for tensor, proto in zip(inputs, forward_schema)
			
 
				+            loop.run_in_executor(None, serialize_torch_tensor, tensor, compression)
			
 
				+            for tensor, compression in zip(inputs, compressions)
			
 
				         )
			
 
				     )
			
 
				 
			
 
				     # call RPC on remote server
			
 
				     size = sum(t.element_size() * t.nelement() for t in inputs)
			
 
				     forward_fn = _forward_stream if size > MAX_UNARY_PAYLOAD_SIZE // 2 else _forward_unary
			
 
				-    # Hotfix: we use "// 2" since hivemind==1.1.5 serializes bfloat16 tensors in float32, so they take 2x more space
			
 
				-    deserialized_outputs = await forward_fn(uid, serialized_tensors, stub, config, metadata=metadata)
			
 
				-    return nested_pack(deserialized_outputs, structure=rpc_info["outputs_schema"])
			
 
				+    # Hotfix: we use "// 2" since hivemind==1.1.5 serializes bfloat16 tensors in float32, so they take 2x more space - TODO remove in the next PR
			
 
				+    return await forward_fn(merged_uid, serialized_tensors, stub, sequence_manager.config, metadata=metadata)
			
 
				 
			
 
				 
			
 
				 async def run_remote_backward(
			
 
				-    uid: ModuleUID,
			
 
				+    sequence_manager: RemoteSequenceManager,
			
 
				+    span_uids: Sequence[ModuleUID],
			
 
				     stub: StubBase,
			
 
				-    rpc_info: RPCInfo,
			
 
				-    *inputs_and_grad_outputs: torch.Tensor,
			
 
				-    config: ClientConfig,
			
 
				-    metadata: Optional[bytes] = None,
			
 
				-    **kwargs,
			
 
				+    grad_outputs: Sequence[torch.Tensor],
			
 
				+    *args: torch.Tensor,
			
 
				+    **kwargs: torch.Tensor,
			
 
				 ) -> Sequence[torch.Tensor]:
			
 
				     """
			
 
				     Serializes grad outputs and calls "rpc_backward" on a remote server.
			
 
				     Mostly adapted from https://github.com/learning-at-home/hivemind/blob/7a7c93aefffc9494c39e7b170c07cb06d8c09c4c/hivemind/moe/client/expert.py#L221
			
 
				     but without RemoteExpertWorker.run_coroutine() call that leads to deadlock here.
			
 
				     """
			
 
				-    args_schema, kwargs_schema = rpc_info["forward_schema"]
			
 
				-    outputs_schema = rpc_info["outputs_schema"]
			
 
				-    compression = args_schema[0].compression
			
 
				-    backward_schema = tuple(BatchTensorDescriptor.from_tensor(arg, compression) for arg in inputs_and_grad_outputs)
			
 
				-    # TODO: create more explicit way to check servers schema and client's structure
			
 
				-    assert (
			
 
				-        len(inputs_and_grad_outputs) >= len(args_schema) + len(outputs_schema) + 1
			
 
				-    ), "Inputs, grad_outputs and prompt tensors are necessary for a backward step"
			
 
				+    flat_tensors, args_structure = pack_args_kwargs(
			
 
				+        [grad.cpu() for grad in grad_outputs], args, kwargs
			
 
				+    )
			
 
				+    metadata = sequence_manager.get_request_metadata(
			
 
				+        "rpc_backward", args_structure, span_uids, *flat_tensors, peer_id=span.peer_id
			
 
				+    )
			
 
				 
			
 
				     # Asynchronous serialization
			
 
				     loop = asyncio.get_running_loop()
			
 
				     serialized_tensors = await asyncio.gather(
			
 
				         *(
			
 
				-            loop.run_in_executor(None, serialize_torch_tensor, tensor.to(proto.dtype), proto.compression)
			
 
				-            for tensor, proto in zip(inputs_and_grad_outputs, backward_schema)
			
 
				+            loop.run_in_executor(None, serialize_torch_tensor, compression)
			
 
				+            for tensor, proto in zip(flat_inputs_and_grad_outputs, backward_schema)
			
 
				         )
			
 
				     )
			
 
				 
			
 
				-    size = sum(t.element_size() * t.nelement() for t in inputs_and_grad_outputs)
			
 
				+    size = sum(t.element_size() * t.nelement() for t in flat_inputs_and_grad_outputs)
			
 
				     backward_fn = _backward_stream if size > MAX_UNARY_PAYLOAD_SIZE // 2 else _backward_unary
			
 
				     # Hotfix: we use "// 2" since hivemind==1.1.5 serializes bfloat16 tensors in float32, so they take 2x more space
			
 
				-    deserialized_grad_inputs = await backward_fn(uid, serialized_tensors, stub, config, metadata=metadata, **kwargs)
			
 
				-    return deserialized_grad_inputs
			
 
				+    return await backward_fn(uid, serialized_tensors, stub, config, metadata=metadata)
			
--- a/src/petals/client/routing/sequence_manager.py
+++ b/src/petals/client/routing/sequence_manager.py
@@ -474,22 +474,30 @@ class RemoteSequenceManager:
 
				             return 0
			
 
				         return min(self.config.min_backoff * 2 ** (attempt_no - 1), self.config.max_backoff)
			
 
				 
			
 
				-    def get_request_metadata(
			
 
				-        self, protocol: str, args_structure: Any = None, *args, **kwargs
			
 
				-    ) -> Optional[Dict[str, Any]]:
			
 
				+    def get_request_metadata(self, peer_id: PeerID, protocol: str, uids: Sequence[str], *args, **kwargs) -> Optional[Dict[str, Any]]:
			
 
				         """
			
 
				+        :param peer_id: remote server's PeerID
			
 
				         :param protocol: one of "rpc_forward", "rpc_backward" or "rpc_inference"
			
 
				-        :param args_structure: the structure of flattened tensors from pack_args_kwargs in petals.utils.packaging
			
 
				-        :param args: request-specific inputs, typically block uids and input tensors
			
 
				-        :param kwargs: additional request context, such as remote peer ID
			
 
				-        :returns: msgpack-serialized metadata dict that will be passed alongside a given request
			
 
				+        :param args: request-specific input tensors
			
 
				+        :param kwargs: additional request keyword arguments
			
 
				+        :returns: metadata dict that will be passed alongside a given request
			
 
				         """
			
 
				         return dict(
			
 
				             points=self.policy.get_points(protocol, *args, **kwargs),
			
 
				             active_adapter=self.config.active_adapter,
			
 
				-            args_structure=args_structure,
			
 
				         )
			
 
				 
			
 
				+    def get_compression_codecs(
			
 
				+            self, peer_id: PeerID, protocol: str, uids: Sequence[str], *args, **kwargs) -> Optional[Sequence[runtime_pb2.CompressionType.ValueType]]:
			
 
				+        """
			
 
				+        :param peer_id: remote server's PeerID
			
 
				+        :param protocol: one of "rpc_forward", "rpc_backward" or "rpc_inference"
			
 
				+        :param args: request-specific input tensors
			
 
				+        :param kwargs: additional request keyword arguments
			
 
				+        :returns: compressions for each input tensor; contains as many elements as there are tensors in (args, kwargs)
			
 
				+        """
			
 
				+        return None
			
 
				+
			
 
				     def shutdown(self):
			
 
				         self._thread.shutdown()
			
 
				 
			
--- a/src/petals/client/sequential_autograd.py
+++ b/src/petals/client/sequential_autograd.py
@@ -46,8 +46,11 @@ async def sequential_forward(
 
				     """
			
 
				 
			
 
				     assert isinstance(inputs, torch.Tensor) and inputs.ndim == 3, f"{type(inputs)}: {inputs.ndim}"
			
 
				-    assert len(block_kwargs) in (0, 1, end_index - start_index), \
			
 
				-        f"got {end_index - start_index} blocks but {len(block_kwargs)} sets of kwargs"
			
 
				+    assert len(block_kwargs) in (
			
 
				+        0,
			
 
				+        1,
			
 
				+        end_index - start_index,
			
 
				+    ), f"got {end_index - start_index} blocks but {len(block_kwargs)} sets of kwargs"
			
 
				 
			
 
				     inputs_device = inputs.device
			
 
				     inputs_dtype = inputs.dtype
			
@@ -78,27 +81,19 @@ async def sequential_forward(
 
				 
			
 
				                 span = sequences.popleft()
			
 
				 
			
 
				-                stub = TransformerConnectionHandler.get_stub(sequence_manager.state.p2p, span.peer_id)
			
 
				-                flat_tensors, args_structure = pack_args_kwargs(
			
 
				-                    inputs, prompts[span.start : span.end], *block_kwargs[span.start: span.end])
			
 
				-
			
 
				-                span_uids = CHAIN_DELIMITER.join(sequence_manager.block_uids[span.start : span.end])
			
 
				-                metadata = sequence_manager.get_request_metadata(
			
 
				-                    "rpc_forward", args_structure, span_uids, *flat_tensors
			
 
				-                )
			
 
				                 (outputs,) = await run_remote_forward(
			
 
				-                    span_uids,
			
 
				-                    stub,
			
 
				-                    sequence_manager.rpc_info,
			
 
				-                    *flat_tensors,
			
 
				-                    config=sequence_manager.config,
			
 
				-                    metadata=MSGPackSerializer.dumps(metadata),
			
 
				+                    sequence_manager,
			
 
				+                    span.peer_id,
			
 
				+                    sequence_manager.block_uids[span.start : span.end],
			
 
				+                    inputs,
			
 
				+                    prompts[span.start : span.end],
			
 
				+                    *block_kwargs[span.start : span.end]
			
 
				                 )
			
 
				 
			
 
				                 assert isinstance(outputs, torch.Tensor)
			
 
				                 assert outputs.shape == inputs.shape, f"Expected output {inputs.shape}, got {outputs.shape}"
			
 
				 
			
 
				-                # Save intermediate inputs and subsequences if the forward is already done for them
			
 
				+                # Save intermediate inputs and subsequ_peerences if the forward is already done for them
			
 
				                 intermediate_inputs.append(inputs)
			
 
				                 done_sequences.append(span)
			
 
				 
			
@@ -164,23 +159,14 @@ async def sequential_backward(
 
				                     inputs = intermediate_inputs.pop()
			
 
				                     span = forward_sequences.pop()
			
 
				 
			
 
				-                grad_outputs_cpu = [grad.cpu() for grad in grad_outputs]
			
 
				-                flat_tensors, args_structure = pack_args_kwargs(
			
 
				-                    inputs, *grad_outputs_cpu, prompts[span.start : span.end]
			
 
				-                )
			
 
				 
			
 
				                 span_uids = CHAIN_DELIMITER.join(sequence_manager.block_uids[span.start : span.end])
			
 
				                 stub = TransformerConnectionHandler.get_stub(sequence_manager.state.p2p, span.peer_id)
			
 
				-                metadata = sequence_manager.get_request_metadata(
			
 
				-                    "rpc_backward", args_structure, span_uids, *flat_tensors, peer_id=span.peer_id
			
 
				-                )
			
 
				                 grad_outputs, *span_grad_prompts = await run_remote_backward(
			
 
				+                    sequence_manager,
			
 
				+                    sequence_manager.block_uids[span.start: span.end],
			
 
				                     span_uids,
			
 
				-                    stub,
			
 
				-                    sequence_manager.rpc_info,
			
 
				-                    *flat_tensors,
			
 
				-                    config=sequence_manager.config,
			
 
				-                    metadata=MSGPackSerializer.dumps(metadata),
			
 
				+                    grad_outputs, inputs,
			
 
				                 )
			
 
				                 grad_outputs = [grad_outputs]
			
 
				                 grad_prompts_reversed.extend(span_grad_prompts)