5 年前 · bb7f867ca7
--- a/hivemind/runtime/task_pool.py
+++ b/hivemind/runtime/task_pool.py
@@ -19,11 +19,11 @@ from ..utils import SharedFuture
 
				 Task = namedtuple("Task", ("future", "args"))
			
 
				 
			
 
				 
			
 
				-class TaskPoolBase(mp.Process):
			
 
				+class TaskPoolBase(mp.context.ForkProcess):
			
 
				     """ A pool that accepts tasks and forms batches for parallel processing, interacts with Runtime """
			
 
				 
			
 
				-    def __init__(self, process_func: callable):
			
 
				-        super().__init__()
			
 
				+    def __init__(self, process_func: callable, daemon=True):
			
 
				+        super().__init__(daemon=daemon)
			
 
				         self.process_func = process_func
			
 
				         self._priority = mp.Value(ctypes.c_double, 1.0)  # higher priority = the more urgent to process this pool
			
 
				 
			
@@ -66,9 +66,8 @@ class TaskPool(TaskPoolBase):
 
				     """
			
 
				 
			
 
				     def __init__(self, process_func: callable, max_batch_size: int, min_batch_size=1,
			
 
				-                 timeout=None, pool_size=None, prefetch_batches=1, uid=None, start=False):
			
 
				-
			
 
				-        super().__init__(process_func)
			
 
				+                 timeout=None, pool_size=None, prefetch_batches=1, uid=None, daemon=True, start=False):
			
 
				+        super().__init__(process_func, daemon=daemon)
			
 
				         self.min_batch_size, self.max_batch_size, self.timeout = min_batch_size, max_batch_size, timeout
			
 
				         self.uid = uid or uuid.uuid4()
			
 
				         self.prefetch_batches = prefetch_batches
			
--- a/hivemind/server/__init__.py
+++ b/hivemind/server/__init__.py
@@ -98,7 +98,8 @@ class Server(threading.Thread):
 
				         sock.listen()
			
 
				         sock.settimeout(self.update_period)
			
 
				 
			
 
				-        processes = [mp.Process(target=socket_loop, name=f"socket_loop-{i}", args=(sock, self.experts))
			
 
				+        processes = [mp.context.ForkProcess(
			
 
				+            target=socket_loop, name=f"socket_loop-{i}", args=(sock, self.experts), daemon=True)
			
 
				                      for i in range(num_handlers)]
			
 
				         return processes
			
 
				 
			
--- a/tests/test_moe.py
+++ b/tests/test_moe.py
@@ -51,7 +51,7 @@ def test_determinism():
 
				     mask = torch.randint(0, 1, (32, 1024))
			
 
				 
			
 
				     with background_server(num_experts=1, device='cpu', expert_cls='det_dropout',
			
 
				-                           no_optimizer=True, no_dht=True) as (localhost, server_port, dht_port):
			
 
				+                           no_optimizer=True, no_dht=True) as (interface, server_port, dht_port):
			
 
				         expert = hivemind.RemoteExpert(uid=f'expert.0', port=server_port)
			
 
				 
			
 
				         out = expert(xx, mask)
			
@@ -68,27 +68,24 @@ def test_compute_expert_scores():
 
				     try:
			
 
				         dht = hivemind.DHTNode(port=hivemind.find_open_port(), start=True)
			
 
				         moe = hivemind.client.moe.RemoteMixtureOfExperts(
			
 
				-            dht=dht, in_features=1024, grid_size=[40], k_best=4, k_min=1, timeout_after_k_min=1,
			
 
				+            dht=dht, in_features=1024, grid_size=(40,), k_best=4, k_min=1, timeout_after_k_min=1,
			
 
				             uid_prefix='expert')
			
 
				         gx, gy = torch.randn(4, 5, requires_grad=True), torch.torch.randn(4, 3, requires_grad=True)
			
 
				         ii = [[4, 0, 2], [3, 1, 1, 1, 3], [0], [3, 2]]
			
 
				         jj = [[2, 2, 1], [0, 1, 2, 0, 1], [0], [1, 2]]
			
 
				         batch_experts = [
			
 
				-            [hivemind.RemoteExpert(uid=f'expert.{ii[b][e]}.{jj[b][e]}') for e in range(len(ii[b]))]
			
 
				-            for b in range(len(ii))
			
 
				+            [hivemind.RemoteExpert(uid=f'expert.{ii[batch_i][expert_i]}.{jj[batch_i][expert_i]}')
			
 
				+             for expert_i in range(len(ii[batch_i]))]
			
 
				+            for batch_i in range(len(ii))
			
 
				         ]  # note: these experts do not exists on server, we use them only to test moe compute_expert_scores
			
 
				         logits = moe.compute_expert_scores([gx, gy], batch_experts)
			
 
				         torch.softmax(logits, dim=-1).norm(dim=-1).mean().backward()
			
 
				         assert gx.grad.norm().item() > 0 and gy.grad.norm().item(), "compute_expert_scores didn't backprop"
			
 
				 
			
 
				-        for b in range(len(ii)):
			
 
				-            for e in range(len(ii[b])):
			
 
				-                assert torch.allclose(logits[b, e], gx[b, ii[b][e]] + gy[b, jj[b][e]]), "compute_expert_scores returned incorrect score"
			
 
				+        for batch_i in range(len(ii)):
			
 
				+            for expert_i in range(len(ii[batch_i])):
			
 
				+                assert torch.allclose(logits[batch_i, expert_i],
			
 
				+                                      gx[batch_i, ii[batch_i][expert_i]] + gy[batch_i, jj[batch_i][expert_i]]), \
			
 
				+                    "compute_expert_scores returned incorrect score"
			
 
				     finally:
			
 
				         dht.shutdown()
			
 
				-
			
 
				-
			
 
				-if __name__ == '__main__':
			
 
				-    test_remote_module_call()
			
 
				-    test_compute_expert_scores()
			
 
				-    test_determinism()
			
--- a/tests/test_utils/run_server.py
+++ b/tests/test_utils/run_server.py
@@ -8,11 +8,32 @@ import hivemind
 
				 from .layers import name_to_block, name_to_input
			
 
				 
			
 
				 
			
 
				-def make_dummy_server(host='0.0.0.0', port=None, num_experts=1, expert_cls='ffn', hidden_dim=1024, num_handlers=None,
			
 
				-                      expert_prefix='expert', expert_offset=0, max_batch_size=16384, device=None, no_optimizer=False,
			
 
				-                      no_dht=False, initial_peers=(), dht_port=None, root_port=None, verbose=True, start=False,
			
 
				-                      UID_DELIMETER=hivemind.DHTNode.UID_DELIMETER, **kwargs) -> hivemind.Server:
			
 
				-    """ A context manager that creates server in a background thread, awaits .ready on entry and shutdowns on exit """
			
 
				+def make_dummy_server(interface='0.0.0.0', port=None, num_experts=1, expert_cls='ffn', hidden_dim=1024,
			
 
				+                      num_handlers=None, expert_prefix='expert', expert_offset=0, max_batch_size=16384, device=None,
			
 
				+                      no_optimizer=False, no_dht=False, initial_peers=(), dht_port=None, root_port=None, verbose=True,
			
 
				+                      UID_DELIMETER=hivemind.DHTNode.UID_DELIMETER, start=False, **kwargs) -> hivemind.Server:
			
 
				+    """
			
 
				+    Instantiate a server with several identical experts. See argparse comments below for details
			
 
				+    :param interface: 'localhost' for local connections only, '0.0.0.0' for ipv4 '::' for ipv6
			
 
				+    :param port: main server will listen to this port, default = find open port
			
 
				+    :param num_experts: run this many identical experts
			
 
				+    :param expert_cls: expert type from test_utils.layers, e.g. 'ffn', 'transformer', 'det_dropout' or 'nop';
			
 
				+    :param hidden_dim: main dimension for expert_cls
			
 
				+    :param num_handlers: server will use this many parallel processes to handle incoming requests
			
 
				+    :param expert_prefix: all expert uids will be {expert_prefix}.{index}
			
 
				+    :param expert_offset: expert uid will use indices in range(expert_offset, expert_offset + num_experts)
			
 
				+    :param max_batch_size: total num examples in the same batch will not exceed this value
			
 
				+    :param device: all experts will use this device in torch notation; default: cuda if available else cpu
			
 
				+    :param no_optimizer: if specified, all optimizers use learning rate=0
			
 
				+    :param no_dht: if specified, the server will not be attached to a dht
			
 
				+    :param initial_peers: a list of peers that will introduce this node to the dht,
			
 
				+      e.g. [("1.2.3.4", 1337), ("127.0.0.1", 4321)]'), default = no peers
			
 
				+    :param dht_port:  DHT node will listen on this port, default = find open port
			
 
				+    :param root_port: if this server does not have initial_peers, it will create a virtual dht node on this port.
			
 
				+        You can then use this node as initial peer for subsequent servers.
			
 
				+    :param verbose: whether to print server started / finished / terminated events
			
 
				+    :param start: if True, starts server right away and returns when server is ready for requests
			
 
				+    """
			
 
				     if verbose and len(kwargs) != 0:
			
 
				         print("Ignored kwargs:", kwargs)
			
 
				     assert expert_cls in name_to_block
			
@@ -57,7 +78,7 @@ def make_dummy_server(host='0.0.0.0', port=None, num_experts=1, expert_cls='ffn'
 
				                                                      )
			
 
				     # actually start server
			
 
				     server = hivemind.Server(
			
 
				-        dht, experts, addr=host, port=port or hivemind.find_open_port(),
			
 
				+        dht, experts, addr=interface, port=port or hivemind.find_open_port(),
			
 
				         conn_handler_processes=num_handlers, device=device)
			
 
				 
			
 
				     if start:
			
@@ -69,55 +90,69 @@ def make_dummy_server(host='0.0.0.0', port=None, num_experts=1, expert_cls='ffn'
 
				 
			
 
				 
			
 
				 @contextmanager
			
 
				-def background_server(*args, verbose=True, **kwargs):
			
 
				-    """ Runs server in a background process and returns a reference to it. """
			
 
				-    recv_addr, send_addr = mp.Pipe(duplex=True)
			
 
				-    trigger_shutdown = mp.Event()
			
 
				+def background_server(*args, shutdown_timeout=5, verbose=True, **kwargs):
			
 
				+    """ A context manager that creates server in a background thread, awaits .ready on entry and shutdowns on exit """
			
 
				+    pipe, runners_pipe = mp.Pipe(duplex=True)
			
 
				+    runner = mp.get_context("spawn").Process(
			
 
				+        target=_server_runner, args=(runners_pipe, *args), kwargs=dict(verbose=verbose, **kwargs))
			
 
				 
			
 
				-    def server_runner():
			
 
				+    try:
			
 
				+        runner.start()
			
 
				+        yield pipe.recv()  # once the server is ready, runner will send us a tuple(hostname, port, dht port)
			
 
				+        pipe.send('SHUTDOWN')  # on exit from context, send shutdown signal
			
 
				+    finally:
			
 
				         try:
			
 
				-            server = make_dummy_server(*args, verbose=verbose, start=True, **kwargs)
			
 
				-            dht_port = server.dht.port if server.dht is not None else None
			
 
				-            send_addr.send((server.addr, server.port, dht_port))
			
 
				-            trigger_shutdown.wait()
			
 
				+            runner.join(timeout=shutdown_timeout)
			
 
				         finally:
			
 
				             if verbose:
			
 
				-                print("Shutting down server...")
			
 
				-            trigger_shutdown.set()  # if server failed internally, set the shutdown trigger anyway
			
 
				-            server.shutdown()
			
 
				+                print("Server failed to shutdown gracefully, terminating it the hard way...")
			
 
				+            runner.terminate()
			
 
				             if verbose:
			
 
				-                print("Server shut down successfully.")
			
 
				+                print("Server terminated.")
			
 
				 
			
 
				-    try:
			
 
				-        runner = mp.Process(target=server_runner)
			
 
				-        runner.start()
			
 
				-        yield recv_addr.recv()  # yield tuple(hostname, port)
			
 
				 
			
 
				+def _server_runner(pipe, *args, verbose, **kwargs):
			
 
				+    server = make_dummy_server(*args, verbose=verbose, start=True, **kwargs)
			
 
				+    try:
			
 
				+        dht_port = server.dht.port if server.dht is not None else None
			
 
				+        pipe.send((server.addr, server.port, dht_port))
			
 
				+        pipe.recv()  # wait for shutdown signal
			
 
				     finally:
			
 
				-        trigger_shutdown.set()
			
 
				-        runner.terminate()
			
 
				-        runner.join()
			
 
				+        if verbose:
			
 
				+            print("Shutting down server...")
			
 
				+        server.shutdown()
			
 
				+        if verbose:
			
 
				+            print("Server shut down successfully.")
			
 
				 
			
 
				 
			
 
				 if __name__ == '__main__':
			
 
				     parser = argparse.ArgumentParser()
			
 
				-    parser.add_argument('--host', type=str, default='0.0.0.0', required=False)
			
 
				-    parser.add_argument('--port', type=int, default=None, required=False)
			
 
				-    parser.add_argument('--num_experts', type=int, default=1, required=False)
			
 
				-    parser.add_argument('--expert_cls', type=str, default='ffn', required=False)
			
 
				-    parser.add_argument('--hidden_dim', type=int, default=1024, required=False)
			
 
				-    parser.add_argument('--num_handlers', type=int, default=None, required=False)
			
 
				-    parser.add_argument('--expert_prefix', type=str, default='expert', required=False)
			
 
				-    parser.add_argument('--expert_offset', type=int, default=0, required=False)
			
 
				-    parser.add_argument('--max_batch_size', type=int, default=16384, required=False)
			
 
				-    parser.add_argument('--device', type=str, default=None, required=False)
			
 
				-    parser.add_argument('--no_optimizer', action='store_true')
			
 
				-    parser.add_argument('--no_dht', action='store_true')
			
 
				-    parser.add_argument('--initial_peers', type=str, default="[]", required=False)
			
 
				-    parser.add_argument('--dht_port', type=int, default=None, required=False)
			
 
				-    parser.add_argument('--root_port', type=int, default=None, required=False)
			
 
				-
			
 
				-    parser.add_argument('--increase_file_limit', action='store_true')
			
 
				+    parser.add_argument('--interface', type=str, default='0.0.0.0', required=False,
			
 
				+                        help="'localhost' for local connections only, '0.0.0.0' for ipv4 '::' for ipv6")
			
 
				+    parser.add_argument('--port', type=int, default=None, required=False, help="server will listen to this port")
			
 
				+    parser.add_argument('--num_experts', type=int, default=1, required=False, help="run this many identical experts")
			
 
				+    parser.add_argument('--expert_cls', type=str, default='ffn', required=False,
			
 
				+                        help="expert type from test_utils.layers, e.g. 'ffn', 'transformer', 'det_dropout' or 'nop'.")
			
 
				+    parser.add_argument('--hidden_dim', type=int, default=1024, required=False, help='main dimension for expert_cls')
			
 
				+    parser.add_argument('--num_handlers', type=int, default=None, required=False,
			
 
				+                        help='server will use this many processes to handle incoming requests')
			
 
				+    parser.add_argument('--expert_prefix', type=str, default='expert', required=False,
			
 
				+                        help='all expert uids will be {expert_prefix}.{index}')
			
 
				+    parser.add_argument('--expert_offset', type=int, default=0, required=False,
			
 
				+                        help='expert uid will use indices in range(expert_offset, expert_offset + num_experts)')
			
 
				+    parser.add_argument('--max_batch_size', type=int, default=16384, required=False,
			
 
				+                        help='total num examples in the same batch will not exceed this value')
			
 
				+    parser.add_argument('--device', type=str, default=None, required=False,
			
 
				+                        help='all experts will use this device in torch notation; default: cuda if available else cpu')
			
 
				+    parser.add_argument('--no_optimizer', action='store_true', help='if specified, all optimizers use learning rate=0')
			
 
				+    parser.add_argument('--no_dht', action='store_true', help='if specified, the server will not be attached to a dht')
			
 
				+    parser.add_argument('--initial_peers', type=str, default="[]", required=False, help='a list of peers that will'
			
 
				+                        ' introduce this node to the dht, e.g. [("1.2.3.4", 1337), ("127.0.0.1", 4321)]')
			
 
				+    parser.add_argument('--dht_port', type=int, default=None, required=False, help='DHT node will listen on this port')
			
 
				+    parser.add_argument('--root_port', type=int, default=None, required=False, help='If this server does not have peers'
			
 
				+                        ', it will create a virtual dht node on this port. You can then use this node as initial peer.')
			
 
				+    parser.add_argument('--increase_file_limit', action='store_true', help='On *nix, this will increase the max number'
			
 
				+                        ' of processes a server can spawn before hitting "Too many open files"; Use at your own risk.')
			
 
				 
			
 
				     args = vars(parser.parse_args())