4 years ago · 3024d381c5
--- a/.circleci/config.yml
+++ b/.circleci/config.yml
@@ -8,11 +8,11 @@ jobs:
 
															       - checkout
														
 
															       - restore_cache:
														
 
															           keys:
														
 
															-            - v1-{{ checksum "requirements.txt" }}-{{ checksum "requirements-dev.txt" }}
														
 
															+            - py37-v1-{{ checksum "requirements.txt" }}-{{ checksum "requirements-dev.txt" }}
														
 
															       - run: pip install -r requirements.txt
														
 
															       - run: pip install -r requirements-dev.txt
														
 
															       - save_cache:
														
 
															-          key: v1-{{ checksum "requirements.txt" }}-{{ checksum "requirements-dev.txt" }}
														
 
															+          key: py37-v1-{{ checksum "requirements.txt" }}-{{ checksum "requirements-dev.txt" }}
														
 
															           paths:
														
 
															             - '~/.cache/pip'
														
 
															       - run:
														
@@ -28,11 +28,11 @@ jobs:
 
															       - checkout
														
 
															       - restore_cache:
														
 
															           keys:
														
 
															-            - v1-{{ checksum "requirements.txt" }}-{{ checksum "requirements-dev.txt" }}
														
 
															+            - py38-v1-{{ checksum "requirements.txt" }}-{{ checksum "requirements-dev.txt" }}
														
 
															       - run: pip install -r requirements.txt
														
 
															       - run: pip install -r requirements-dev.txt
														
 
															       - save_cache:
														
 
															-          key: v1-{{ checksum "requirements.txt" }}-{{ checksum "requirements-dev.txt" }}
														
 
															+          key: py38-v1-{{ checksum "requirements.txt" }}-{{ checksum "requirements-dev.txt" }}
														
 
															           paths:
														
 
															             - '~/.cache/pip'
														
 
															       - run:
														
@@ -48,11 +48,11 @@ jobs:
 
															       - checkout
														
 
															       - restore_cache:
														
 
															           keys:
														
 
															-            - v1-{{ checksum "requirements.txt" }}-{{ checksum "requirements-dev.txt" }}
														
 
															+            - py39-v1-{{ checksum "requirements.txt" }}-{{ checksum "requirements-dev.txt" }}
														
 
															       - run: pip install -r requirements.txt
														
 
															       - run: pip install -r requirements-dev.txt
														
 
															       - save_cache:
														
 
															-          key: v1-{{ checksum "requirements.txt" }}-{{ checksum "requirements-dev.txt" }}
														
 
															+          key: py39-v1-{{ checksum "requirements.txt" }}-{{ checksum "requirements-dev.txt" }}
														
 
															           paths:
														
 
															             - '~/.cache/pip'
														
 
															       - run:
														
--- a/hivemind/hivemind_cli/__init__.py
+++ b/hivemind/hivemind_cli/__init__.py
--- a/hivemind/hivemind_cli/run_server.py
+++ b/hivemind/hivemind_cli/run_server.py
@@ -8,6 +8,7 @@ from hivemind.proto.runtime_pb2 import CompressionType
 
															 from hivemind.server import Server
														
 
															 from hivemind.utils.threading import increase_file_limit
														
 
															 from hivemind.utils.logging import get_logger
														
 
															+from hivemind.server.layers import schedule_name_to_scheduler
														
 
															 logger = get_logger(__name__)
														
@@ -28,13 +29,20 @@ def main():
 
															     parser.add_argument('--expert_cls', type=str, default='ffn', required=False,
														
 
															                         help="expert type from test_utils.layers, e.g. 'ffn', 'transformer', 'det_dropout' or 'nop'.")
														
 
															     parser.add_argument('--hidden_dim', type=int, default=1024, required=False, help='main dimension for expert_cls')
														
 
															+
														
 
															     parser.add_argument('--num_handlers', type=int, default=None, required=False,
														
 
															                         help='server will use this many processes to handle incoming requests')
														
 
															     parser.add_argument('--max_batch_size', type=int, default=16384, required=False,
														
 
															                         help='The total number of examples in the same batch will not exceed this value')
														
 
															     parser.add_argument('--device', type=str, default=None, required=False,
														
 
															                         help='all experts will use this device in torch notation; default: cuda if available else cpu')
														
 
															+
														
 
															     parser.add_argument('--optimizer', type=str, default='adam', required=False, help='adam, sgd or none')
														
 
															+    parser.add_argument('--scheduler', type=str, choices=schedule_name_to_scheduler.keys(), default='none',
														
 
															+                        help='LR scheduler type to use')
														
 
															+    parser.add_argument('--num-warmup-steps', type=int, required=False, help='the number of warmup steps for LR schedule')
														
 
															+    parser.add_argument('--num-training-steps', type=int, required=False, help='the total number of steps for LR schedule')
														
 
															+
														
 
															     parser.add_argument('--no_dht', action='store_true', help='if specified, the server will not be attached to a dht')
														
 
															     parser.add_argument('--initial_peers', type=str, nargs='*', required=False, default=[],
														
 
															                         help='one or more peers that can welcome you to the dht, e.g. 1.2.3.4:1337 192.132.231.4:4321')
														
@@ -45,7 +53,6 @@ def main():
 
															     parser.add_argument('--compression', type=str, default='NONE', required=False, help='Tensor compression '
														
 
															                         'parameter for grpc. Can be NONE, MEANSTD or FLOAT16')
														
 
															     parser.add_argument('--checkpoint_dir', type=Path, required=False, help='Directory to store expert checkpoints')
														
 
															-    parser.add_argument('--load_experts', action='store_true', help='Load experts from the checkpoint directory')
														
 
															     # fmt:on
														
 
															     args = vars(parser.parse_args())
														
--- a/hivemind/server/__init__.py
+++ b/hivemind/server/__init__.py
@@ -2,23 +2,22 @@ from __future__ import annotations
 
															 import multiprocessing as mp
														
 
															 import multiprocessing.synchronize
														
 
															-import random
														
 
															 import threading
														
 
															 from contextlib import contextmanager
														
 
															 from functools import partial
														
 
															-from typing import Dict, Optional, Tuple, List
														
 
															+from typing import Dict, Optional, Tuple
														
 
															 from pathlib import Path
														
 
															 import torch
														
 
															 import hivemind
														
 
															 from hivemind.dht import DHT
														
 
															-from hivemind.server.expert_uid import UID_DELIMITER
														
 
															-from hivemind.server.checkpoints import CheckpointSaver, load_weights, dir_is_correct
														
 
															+from hivemind.server.expert_uid import UID_DELIMITER, generate_uids_from_pattern
														
 
															+from hivemind.server.checkpoints import CheckpointSaver, load_experts, is_directory
														
 
															 from hivemind.server.connection_handler import ConnectionHandler
														
 
															 from hivemind.server.dht_handler import DHTHandlerThread, declare_experts, get_experts
														
 
															 from hivemind.server.expert_backend import ExpertBackend
														
 
															-from hivemind.server.layers import name_to_block, name_to_input
														
 
															+from hivemind.server.layers import name_to_block, name_to_input, schedule_name_to_scheduler
														
 
															 from hivemind.server.runtime import Runtime
														
 
															 from hivemind.server.task_pool import Task, TaskPool, TaskPoolBase
														
 
															 from hivemind.utils import Endpoint, get_port, replace_port, find_open_port, get_logger
														
@@ -68,11 +67,12 @@ class Server(threading.Thread):
 
															         if start:
														
 
															             self.run_in_background(await_ready=True)
														
 
															-    @staticmethod
														
 
															-    def create(listen_on='0.0.0.0:*', num_experts: int = None, expert_uids: str = None, expert_pattern: str = None,
														
 
															-               expert_cls='ffn', hidden_dim=1024, optim_cls=torch.optim.Adam, num_handlers=None, max_batch_size=4096,
														
 
															-               device=None, no_dht=False, initial_peers=(), dht_port=None, checkpoint_dir: Optional[Path] = None,
														
 
															-               load_experts=False, compression=CompressionType.NONE, *, start: bool, **kwargs) -> Server:
														
 
															+    @classmethod
														
 
															+    def create(cls, listen_on='0.0.0.0:*', num_experts: int = None, expert_uids: str = None, expert_pattern: str = None,
														
 
															+               expert_cls='ffn', hidden_dim=1024, optim_cls=torch.optim.Adam, scheduler: str = 'none',
														
 
															+               num_warmup_steps=None, num_training_steps=None, num_handlers=None, max_batch_size=4096, device=None,
														
 
															+               no_dht=False, initial_peers=(), dht_port=None, checkpoint_dir: Optional[Path] = None,
														
 
															+               compression=CompressionType.NONE, *, start: bool, **kwargs) -> Server:
														
 
															         """
														
 
															         Instantiate a server with several identical experts. See argparse comments below for details
														
 
															         :param listen_on: network interface with address and (optional) port, e.g. "127.0.0.1:1337" or "[::]:80"
														
@@ -85,7 +85,12 @@ class Server(threading.Thread):
 
															         :param num_handlers: server will use this many parallel processes to handle incoming requests
														
 
															         :param max_batch_size: total num examples in the same batch will not exceed this value
														
 
															         :param device: all experts will use this device in torch notation; default: cuda if available else cpu
														
 
															+
														
 
															         :param optim_cls: uses this optimizer to train all experts
														
 
															+        :param scheduler: if not `none`, the name of the expert LR scheduler
														
 
															+        :param num_warmup_steps: the number of warmup steps for LR schedule
														
 
															+        :param num_training_steps: the total number of steps for LR schedule
														
 
															+
														
 
															         :param no_dht: if specified, the server will not be attached to a dht
														
 
															         :param initial_peers: a list of peers that will introduce this node to the dht,\
														
 
															            e.g. ('123.11.22.33:1337', '[fe80::abe2:db1c:be7d:5a85]:4567'), default = no peers
														
@@ -93,8 +98,7 @@ class Server(threading.Thread):
 
															         :param dht_port:  DHT node will listen on this port, default = find open port
														
 
															            You can then use this node as initial peer for subsequent servers.
														
 
															-        :param checkpoint_dir: directory to save expert checkpoints
														
 
															-        :param load_experts: whether to load expert checkpoints from checkpoint_dir
														
 
															+        :param checkpoint_dir: directory to save and load expert checkpoints
														
 
															         :param compression: if specified, use this compression to pack all inputs, outputs and gradients by all experts
														
 
															             hosted on this server. For a more fine-grained compression, start server in python and specify compression
														
@@ -113,23 +117,29 @@ class Server(threading.Thread):
 
															             dht = hivemind.DHT(initial_peers=initial_peers, start=True, listen_on=dht_endpoint)
														
 
															             logger.info(f"Running DHT node on port {dht.port}, initial peers = {initial_peers}")
														
 
															-        if load_experts:
														
 
															-            assert dir_is_correct(checkpoint_dir)
														
 
															-            assert expert_uids is None, "Can't both load saved experts and create new ones from given UIDs"
														
 
															-            expert_uids = [child.name for child in checkpoint_dir.iterdir() if (child / 'checkpoint_last.pt').exists()]
														
 
															-            if expert_uids:
														
 
															-                logger.info(f"Located checkpoints for experts {expert_uids}, ignoring UID generation options")
														
 
															-            else:
														
 
															-                logger.info(f"No expert checkpoints found in {checkpoint_dir}, generating...")
														
 
															-
														
 
															-        assert (expert_pattern is None and num_experts is None) or (expert_uids is None) or (num_experts == 0), \
														
 
															-            "Please provide either expert_uids *or* num_experts and expert_pattern, but not both"
														
 
															+        assert ((expert_pattern is None and num_experts is None and expert_uids is not None) or
														
 
															+                (num_experts is not None and expert_uids is None)), \
														
 
															+            "Please provide either expert_uids *or* num_experts (possibly with expert_pattern), but not both"
														
 
															-        # get expert uids if not loaded previously
														
 
															         if expert_uids is None:
														
 
															-            assert num_experts is not None, "Please specify either expert_uids or num_experts [and expert_pattern]"
														
 
															-            logger.info(f"Generating expert uids from pattern {expert_pattern}")
														
 
															-            expert_uids = generate_uids_from_pattern(num_experts, expert_pattern, dht=dht)
														
 
															+            if checkpoint_dir is not None:
														
 
															+                assert is_directory(checkpoint_dir)
														
 
															+                expert_uids = [child.name for child in checkpoint_dir.iterdir() if
														
 
															+                               (child / 'checkpoint_last.pt').exists()]
														
 
															+                total_experts_in_checkpoint = len(expert_uids)
														
 
															+                logger.info(f"Located {total_experts_in_checkpoint} checkpoints for experts {expert_uids}")
														
 
															+
														
 
															+                if total_experts_in_checkpoint > num_experts:
														
 
															+                    raise ValueError(
														
 
															+                        f"Found {total_experts_in_checkpoint} checkpoints, but num_experts is set to {num_experts}, "
														
 
															+                        f"which is smaller. Either increase num_experts or remove unneeded checkpoints.")
														
 
															+            else:
														
 
															+                expert_uids = []
														
 
															+
														
 
															+            uids_to_generate = num_experts - len(expert_uids)
														
 
															+            if uids_to_generate > 0:
														
 
															+                logger.info(f"Generating {uids_to_generate} expert uids from pattern {expert_pattern}")
														
 
															+                expert_uids.extend(generate_uids_from_pattern(uids_to_generate, expert_pattern, dht))
														
 
															         num_experts = len(expert_uids)
														
 
															         num_handlers = num_handlers if num_handlers is not None else num_experts * 8
														
@@ -142,6 +152,8 @@ class Server(threading.Thread):
 
															         else:
														
 
															             args_schema = (hivemind.BatchTensorDescriptor.from_tensor(sample_input, compression),)
														
 
															+        scheduler = schedule_name_to_scheduler[scheduler]
														
 
															+
														
 
															         # initialize experts
														
 
															         experts = {}
														
 
															         for expert_uid in expert_uids:
														
@@ -150,15 +162,17 @@ class Server(threading.Thread):
 
															                                                          args_schema=args_schema,
														
 
															                                                          outputs_schema=hivemind.BatchTensorDescriptor(
														
 
															                                                              hidden_dim, compression=compression),
														
 
															-                                                         opt=optim_cls(expert.parameters()),
														
 
															+                                                         optimizer=optim_cls(expert.parameters()),
														
 
															+                                                         scheduler=scheduler,
														
 
															+                                                         num_warmup_steps=num_warmup_steps,
														
 
															+                                                         num_training_steps=num_training_steps,
														
 
															                                                          max_batch_size=max_batch_size)
														
 
															-        if load_experts:
														
 
															-            load_weights(experts, checkpoint_dir)
														
 
															+        if checkpoint_dir is not None:
														
 
															+            load_experts(experts, checkpoint_dir)
														
 
															-        server = Server(dht, experts, listen_on=listen_on, num_connection_handlers=num_handlers, device=device,
														
 
															-                        start=start)
														
 
															-        return server
														
 
															+        return cls(dht, experts, listen_on=listen_on, num_connection_handlers=num_handlers, device=device,
														
 
															+                   checkpoint_dir=checkpoint_dir, start=start)
														
 
															     def run(self):
														
 
															         """
														
@@ -241,7 +255,7 @@ class Server(threading.Thread):
 
															 def background_server(*args, shutdown_timeout=5, **kwargs) -> Tuple[hivemind.Endpoint, hivemind.Endpoint]:
														
 
															     """ A context manager that creates server in a background thread, awaits .ready on entry and shutdowns on exit """
														
 
															     pipe, runners_pipe = mp.Pipe(duplex=True)
														
 
															-    runner = mp.get_context("spawn").Process(target=_server_runner, args=(runners_pipe, *args), kwargs=kwargs)
														
 
															+    runner = mp.Process(target=_server_runner, args=(runners_pipe, *args), kwargs=kwargs)
														
 
															     try:
														
 
															         runner.start()
														
@@ -269,63 +283,3 @@ def _server_runner(pipe, *args, **kwargs):
 
															         server.shutdown()
														
 
															         server.join()
														
 
															         logger.info("Server shut down.")
														
 
															-
														
 
															-
														
 
															-def generate_uids_from_pattern(num_experts: int, expert_pattern: Optional[str], dht: Optional[DHT] = None,
														
 
															-                               attempts_per_expert=10) -> List[str]:
														
 
															-    """
														
 
															-    Sample experts from a given pattern, remove duplicates.
														
 
															-    :param num_experts: sample this many unique expert uids
														
 
															-    :param expert_pattern: a string pattern or a list of expert uids,  example: myprefix.[0:32].[0:256]\
														
 
															-     means "sample random experts between myprefix.0.0 and myprefix.255.255;
														
 
															-    :param dht: if specified, uses this DHT to check that expert uids are not yet occupied by other peers
														
 
															-    :param attempts_per_expert: give up if unable to generate a new expert uid after this many attempts per uid
														
 
															-    :note: this method is not strictly process-safe. If several servers run it concurrently, they have
														
 
															-     a small chance of sampling duplicate expert uids.
														
 
															-    """
														
 
															-    remaining_attempts = attempts_per_expert * num_experts
														
 
															-    found_uids, attempted_uids = list(), set()
														
 
															-
														
 
															-    def _generate_uid():
														
 
															-        if expert_pattern is None:
														
 
															-            return f"expert{UID_DELIMITER}{attempts_per_expert * num_experts - remaining_attempts}"
														
 
															-
														
 
															-        uid = []
														
 
															-        for block in expert_pattern.split(UID_DELIMITER):
														
 
															-            try:
														
 
															-                if '[' not in block and ']' not in block:
														
 
															-                    uid.append(block)
														
 
															-                elif block.startswith('[') and block.endswith(']') and ':' in block:
														
 
															-                    slice_start, slice_end = map(int, block[1:-1].split(':'))
														
 
															-                    uid.append(str(random.randint(slice_start, slice_end - 1)))
														
 
															-                else:
														
 
															-                    raise ValueError("Block must be either fixed or a range [from:to]")
														
 
															-            except KeyboardInterrupt as e:
														
 
															-                raise e
														
 
															-            except Exception as e:
														
 
															-                raise ValueError(f"Expert pattern {expert_pattern} has invalid block {block}, {e}")
														
 
															-        return UID_DELIMITER.join(uid)
														
 
															-
														
 
															-    while remaining_attempts > 0 and len(found_uids) < num_experts:
														
 
															-
														
 
															-        # 1. sample new expert uids at random
														
 
															-        new_uids = []
														
 
															-        while len(new_uids) + len(found_uids) < num_experts and remaining_attempts > 0:
														
 
															-            new_uid = _generate_uid()
														
 
															-            remaining_attempts -= 1
														
 
															-            if new_uid not in attempted_uids:
														
 
															-                attempted_uids.add(new_uid)
														
 
															-                new_uids.append(new_uid)
														
 
															-
														
 
															-        # 2. look into DHT (if given) and remove duplicates
														
 
															-        if dht:
														
 
															-            existing_expert_uids = {found_expert.uid for found_expert in dht.get_experts(new_uids)
														
 
															-                                    if found_expert is not None}
														
 
															-            new_uids = [new_uid for new_uid in new_uids if new_uid not in existing_expert_uids]
														
 
															-
														
 
															-        found_uids += new_uids
														
 
															-
														
 
															-    if len(found_uids) != num_experts:
														
 
															-        logger.warning(f"Found only {len(found_uids)} out of {num_experts} free expert uids after "
														
 
															-                       f"{attempts_per_expert * num_experts} attempts")
														
 
															-    return found_uids
														
--- a/hivemind/server/checkpoints.py
+++ b/hivemind/server/checkpoints.py
@@ -1,17 +1,20 @@
 
															+import os
														
 
															 import threading
														
 
															 from datetime import datetime
														
 
															 from pathlib import Path
														
 
															 from shutil import copy2
														
 
															 from tempfile import TemporaryDirectory
														
 
															 from typing import Dict
														
 
															-import os
														
 
															 import torch
														
 
															 from hivemind.server.expert_backend import ExpertBackend
														
 
															+from hivemind.utils.logging import get_logger
														
 
															+logger = get_logger(__name__)
														
 
															-def dir_is_correct(directory: Path):
														
 
															+
														
 
															+def is_directory(directory: Path):
														
 
															     assert directory is not None
														
 
															     assert directory.exists()
														
 
															     assert directory.is_dir()
														
@@ -33,7 +36,7 @@ def copy_tree(src: str, dst: str):
 
															 class CheckpointSaver(threading.Thread):
														
 
															     def __init__(self, expert_backends: Dict[str, ExpertBackend], checkpoint_dir: Path, update_period: int):
														
 
															         super().__init__()
														
 
															-        assert dir_is_correct(checkpoint_dir)
														
 
															+        assert is_directory(checkpoint_dir)
														
 
															         self.expert_backends = expert_backends
														
 
															         self.update_period = update_period
														
 
															         self.checkpoint_dir = checkpoint_dir
														
@@ -48,21 +51,25 @@ class CheckpointSaver(threading.Thread):
 
															 def store_experts(experts: Dict[str, ExpertBackend], checkpoint_dir: Path):
														
 
															-    assert dir_is_correct(checkpoint_dir)
														
 
															+    logger.debug(f'Storing experts at {checkpoint_dir.absolute()}')
														
 
															+    assert is_directory(checkpoint_dir)
														
 
															     timestamp = datetime.now().isoformat(sep='_')
														
 
															     with TemporaryDirectory() as tmpdirname:
														
 
															         for expert_name, expert_backend in experts.items():
														
 
															             expert_dir = Path(tmpdirname) / expert_name
														
 
															             expert_dir.mkdir()
														
 
															             checkpoint_name = expert_dir / f'checkpoint_{timestamp}.pt'
														
 
															-            torch.save(expert_backend.state_dict(), checkpoint_name)
														
 
															+            torch.save(expert_backend.get_full_state(), checkpoint_name)
														
 
															             os.symlink(checkpoint_name, expert_dir / 'checkpoint_last.pt')
														
 
															         copy_tree(tmpdirname, str(checkpoint_dir))
														
 
															-def load_weights(experts: Dict[str, ExpertBackend], checkpoint_dir: Path):
														
 
															-    assert dir_is_correct(checkpoint_dir)
														
 
															+def load_experts(experts: Dict[str, ExpertBackend], checkpoint_dir: Path):
														
 
															+    assert is_directory(checkpoint_dir)
														
 
															     for expert_name, expert in experts.items():
														
 
															         checkpoints_folder = checkpoint_dir / expert_name
														
 
															         latest_checkpoint = checkpoints_folder / 'checkpoint_last.pt'
														
 
															-        expert.load_state_dict(torch.load(latest_checkpoint))
														
 
															+        if latest_checkpoint.exists():
														
 
															+            expert.load_full_state(torch.load(latest_checkpoint))
														
 
															+        else:
														
 
															+            logger.warning(f'Failed to load checkpoint for expert {expert_name}')
														
--- a/hivemind/server/connection_handler.py
+++ b/hivemind/server/connection_handler.py
@@ -16,7 +16,7 @@ from hivemind.utils.grpc import GRPC_KEEPALIVE_OPTIONS
 
															 logger = get_logger(__name__)
														
 
															-class ConnectionHandler(mp.Process):
														
 
															+class ConnectionHandler(mp.context.ForkProcess):
														
 
															     """
														
 
															     A process that accepts incoming requests to experts and submits them into the corresponding TaskPool.
														
--- a/hivemind/server/expert_backend.py
+++ b/hivemind/server/expert_backend.py
@@ -1,14 +1,17 @@
 
															-from typing import Dict, Sequence, Any, Tuple, Union
														
 
															+from typing import Dict, Sequence, Any, Tuple, Union, Callable
														
 
															 import torch
														
 
															 from torch import nn
														
 
															 from hivemind.server.task_pool import TaskPool
														
 
															-from hivemind.utils import nested_flatten, nested_pack, nested_compare, nested_map, \
														
 
															-    BatchTensorDescriptor, DUMMY_BATCH_SIZE
														
 
															+from hivemind.utils import BatchTensorDescriptor, DUMMY_BATCH_SIZE
														
 
															+from hivemind.utils.logging import get_logger
														
 
															+from hivemind.utils.nested import nested_flatten, nested_pack, nested_compare, nested_map
														
 
															+logger = get_logger(__name__)
														
 
															-class ExpertBackend(nn.Module):
														
 
															+
														
 
															+class ExpertBackend:
														
 
															     """
														
 
															     ExpertBackend is a wrapper around torch module that allows it to run tasks asynchronously with Runtime
														
 
															     By default, ExpertBackend handles three types of requests:
														
@@ -26,20 +29,31 @@ class ExpertBackend(nn.Module):
 
															         you should explicitly register these random variables as model inputs or outputs.
														
 
															         See hivemind.utils.custom_layers.DeterministicDropout for an example
														
 
															-    :param opt: torch optimizer to be applied on every backward call
														
 
															+    :param optimizer: torch optimizer to be applied on every backward call
														
 
															+    :param scheduler: a function to create the learning rate scheduler for the expert
														
 
															     :param args_schema: description of positional arguments to expert.forward, list of BatchTensorProto
														
 
															     :param kwargs_schema: description of keyword arguments to expert.forward, dict of BatchTensorProto
														
 
															     :param outputs_schema: description of outputs from expert.forward, nested structure of BatchTensorProto
														
 
															+    :param num_warmup_steps: the number of warmup steps for LR schedule
														
 
															+    :param num_training_steps: the total number of steps for LR schedule
														
 
															     :param kwargs: extra parameters to be forwarded into TaskPool.__init__
														
 
															     """
														
 
															-    def __init__(self, name: str, expert: nn.Module, opt: torch.optim.Optimizer, *,
														
 
															+    def __init__(self, name: str, expert: nn.Module, optimizer: torch.optim.Optimizer, *,
														
 
															+                 scheduler: Callable = None,
														
 
															                  args_schema: Tuple[BatchTensorDescriptor, ...] = None,
														
 
															                  kwargs_schema: Dict[str, BatchTensorDescriptor] = None,
														
 
															                  outputs_schema: Union[BatchTensorDescriptor, Tuple[BatchTensorDescriptor, ...]] = None,
														
 
															+                 num_warmup_steps: int = None, num_training_steps: int = None,
														
 
															                  **kwargs):
														
 
															         super().__init__()
														
 
															-        self.expert, self.opt, self.name = expert, opt, name
														
 
															+        self.expert, self.optimizer, self.name = expert, optimizer, name
														
 
															+
														
 
															+        if scheduler is None:
														
 
															+            self.scheduler = None
														
 
															+        else:
														
 
															+            assert optimizer is not None and num_warmup_steps is not None and num_training_steps is not None
														
 
															+            self.scheduler = scheduler(self.optimizer, num_warmup_steps, num_training_steps)
														
 
															         self.args_schema = args_schema = tuple(args_schema or ())
														
 
															         self.kwargs_schema = kwargs_schema = dict(kwargs_schema or {})
														
@@ -61,7 +75,8 @@ class ExpertBackend(nn.Module):
 
															         self.forward_pool = TaskPool(self.forward, uid=f'{self.name}_forward', **kwargs)
														
 
															         self.backward_pool = TaskPool(self.backward, uid=f'{self.name}_backward', **kwargs)
														
 
															-        self.register_buffer('update_count', torch.zeros(1, dtype=torch.long))
														
 
															+        self.update_count = 0
														
 
															+        self.examples_processed = 0
														
 
															     def forward(self, *inputs: torch.Tensor) -> Tuple[torch.Tensor, ...]:
														
 
															         """
														
@@ -111,6 +126,8 @@ class ExpertBackend(nn.Module):
 
															                                   if tensor.is_floating_point() else tensor.detach())
														
 
															                       for input_key, tensor in kwargs.items()}
														
 
															+            batch_size = args[0].size(0)
														
 
															+
														
 
															             outputs = self.expert(*args, **kwargs)
														
 
															             assert nested_compare(outputs, grad_outputs), "outputs and grad_outputs must have the same structure"
														
@@ -121,18 +138,63 @@ class ExpertBackend(nn.Module):
 
															                 nested_flatten(grad_outputs), outputs_flat))
														
 
															             torch.autograd.backward(outputs_flat, grad_tensors=grad_outputs_flat,
														
 
															                                     create_graph=False, retain_graph=False)
														
 
															-            self.apply_gradients()
														
 
															+            self.apply_gradients(batch_size)
														
 
															         return tuple(x.grad if isinstance(x.grad, torch.Tensor) else torch.zeros_like(x)
														
 
															                      for x in nested_flatten((args, kwargs)))
														
 
															-    def apply_gradients(self) -> None:
														
 
															+    def apply_gradients(self, batch_size) -> None:
														
 
															         """
														
 
															         Train the expert for one step. This method is called by ``ExpertBackend.backward`` after computing gradients.
														
 
															         """
														
 
															-        self.opt.step()
														
 
															-        self.opt.zero_grad()
														
 
															+        self.optimizer.step()
														
 
															+        self.optimizer.zero_grad()
														
 
															+
														
 
															+        if self.scheduler is not None:
														
 
															+            self.scheduler.step()
														
 
															+
														
 
															         self.update_count += 1
														
 
															+        self.examples_processed += batch_size
														
 
															+
														
 
															+    def get_stats(self) -> Dict:
														
 
															+        """
														
 
															+        Return current expert training statistics (number of updates, number of processed examples after last optimizer step)
														
 
															+        """
														
 
															+        return {
														
 
															+            'updates': self.update_count,
														
 
															+            'examples_processed': self.examples_processed
														
 
															+        }
														
 
															+
														
 
															+    def get_full_state(self) -> Dict:
														
 
															+        """
														
 
															+        Return the current state of the expert (including batch processing statistics)
														
 
															+        """
														
 
															+        full_state = {
														
 
															+            'stats': self.get_stats(),
														
 
															+            'model': self.expert.state_dict(),
														
 
															+            'optimizer': self.optimizer.state_dict(),
														
 
															+            'scheduler': {} if self.scheduler is None else self.scheduler.state_dict()
														
 
															+        }
														
 
															+        return full_state
														
 
															+
														
 
															+    def load_full_state(self, state_dict: Dict):
														
 
															+        if 'stats' in state_dict:
														
 
															+            self.update_count = state_dict['stats']['updates']
														
 
															+            self.examples_processed = state_dict['stats']['examples_processed']
														
 
															+        else:
														
 
															+            logger.warning(f'Batch processing stats missing for expert {self.name}')
														
 
															+
														
 
															+        self.expert.load_state_dict(state_dict['model'])
														
 
															+
														
 
															+        if 'optimizer' in state_dict:
														
 
															+            self.optimizer.load_state_dict(state_dict['optimizer'])
														
 
															+        else:
														
 
															+            logger.warning(f'Optimizer state missing for expert {self.name}')
														
 
															+
														
 
															+        if self.scheduler is not None and 'scheduler' in state_dict:
														
 
															+            self.scheduler.load_state_dict(state_dict['scheduler'])
														
 
															+        else:
														
 
															+            logger.warning(f'Learning rate scheduler state missing for expert {self.name}')
														
 
															     def get_info(self) -> Dict[str, Any]:
														
 
															         """ Get expert parameters and stats. Used by RemoteExpert to check shapes and for DMoE orchestration. """
														
--- a/hivemind/server/expert_uid.py
+++ b/hivemind/server/expert_uid.py
@@ -1,8 +1,11 @@
 
															+import random
														
 
															 import re
														
 
															-from typing import NamedTuple, Union, Tuple
														
 
															+from typing import NamedTuple, Union, Tuple, Optional, List
														
 
															-from hivemind.utils.networking import Endpoint
														
 
															+from hivemind.dht import DHT
														
 
															+from hivemind.utils import Endpoint, get_logger
														
 
															+logger = get_logger(__name__)
														
 
															 ExpertUID, ExpertPrefix, Coordinate, Score = str, str, int, float
														
 
															 UidEndpoint = NamedTuple("UidEndpoint", [('uid', ExpertUID), ('endpoint', Endpoint)])
														
@@ -30,3 +33,61 @@ def split_uid(uid_or_prefix: Union[ExpertUID, ExpertPrefix]) -> Tuple[ExpertPref
 
															     return uid_or_prefix[:pivot], int(uid_or_prefix[pivot:])
														
 
															+def generate_uids_from_pattern(num_experts: int, expert_pattern: Optional[str], dht: Optional[DHT] = None,
														
 
															+                               attempts_per_expert=10) -> List[str]:
														
 
															+    """
														
 
															+    Sample experts from a given pattern, remove duplicates.
														
 
															+    :param num_experts: sample this many unique expert uids
														
 
															+    :param expert_pattern: a string pattern or a list of expert uids,  example: myprefix.[0:32].[0:256]\
														
 
															+     means "sample random experts between myprefix.0.0 and myprefix.255.255;
														
 
															+    :param dht: if specified, uses this DHT to check that expert uids are not yet occupied by other peers
														
 
															+    :param attempts_per_expert: give up if unable to generate a new expert uid after this many attempts per uid
														
 
															+    :note: this method is not strictly process-safe. If several servers run it concurrently, they have
														
 
															+     a small chance of sampling duplicate expert uids.
														
 
															+    """
														
 
															+    remaining_attempts = attempts_per_expert * num_experts
														
 
															+    found_uids, attempted_uids = list(), set()
														
 
															+
														
 
															+    def _generate_uid():
														
 
															+        if expert_pattern is None:
														
 
															+            return f"expert{UID_DELIMITER}{attempts_per_expert * num_experts - remaining_attempts}"
														
 
															+
														
 
															+        uid = []
														
 
															+        for block in expert_pattern.split(UID_DELIMITER):
														
 
															+            try:
														
 
															+                if '[' not in block and ']' not in block:
														
 
															+                    uid.append(block)
														
 
															+                elif block.startswith('[') and block.endswith(']') and ':' in block:
														
 
															+                    slice_start, slice_end = map(int, block[1:-1].split(':'))
														
 
															+                    uid.append(str(random.randint(slice_start, slice_end - 1)))
														
 
															+                else:
														
 
															+                    raise ValueError("Block must be either fixed or a range [from:to]")
														
 
															+            except KeyboardInterrupt as e:
														
 
															+                raise e
														
 
															+            except Exception as e:
														
 
															+                raise ValueError(f"Expert pattern {expert_pattern} has invalid block {block}, {e}")
														
 
															+        return UID_DELIMITER.join(uid)
														
 
															+
														
 
															+    while remaining_attempts > 0 and len(found_uids) < num_experts:
														
 
															+
														
 
															+        # 1. sample new expert uids at random
														
 
															+        new_uids = []
														
 
															+        while len(new_uids) + len(found_uids) < num_experts and remaining_attempts > 0:
														
 
															+            new_uid = _generate_uid()
														
 
															+            remaining_attempts -= 1
														
 
															+            if new_uid not in attempted_uids:
														
 
															+                attempted_uids.add(new_uid)
														
 
															+                new_uids.append(new_uid)
														
 
															+
														
 
															+        # 2. look into DHT (if given) and remove duplicates
														
 
															+        if dht:
														
 
															+            existing_expert_uids = {found_expert.uid for found_expert in dht.get_experts(new_uids)
														
 
															+                                    if found_expert is not None}
														
 
															+            new_uids = [new_uid for new_uid in new_uids if new_uid not in existing_expert_uids]
														
 
															+
														
 
															+        found_uids += new_uids
														
 
															+
														
 
															+    if len(found_uids) != num_experts:
														
 
															+        logger.warning(f"Found only {len(found_uids)} out of {num_experts} free expert uids after "
														
 
															+                       f"{attempts_per_expert * num_experts} attempts")
														
 
															+    return found_uids
														
--- a/hivemind/server/layers/__init__.py
+++ b/hivemind/server/layers/__init__.py
@@ -2,6 +2,7 @@ import torch
 
															 from hivemind.server.layers.common import FeedforwardBlock, TransformerEncoderLayer, NopExpert
														
 
															 from hivemind.server.layers.dropout import DeterministicDropout, DeterministicDropoutNetwork
														
 
															+from hivemind.server.layers.lr_schedule import get_linear_schedule_with_warmup
														
 
															 name_to_block = {'ffn': lambda hid_dim: FeedforwardBlock(hid_dim),
														
 
															                  'transformer': lambda hid_dim: TransformerEncoderLayer(hid_dim, dim_feedforward=4 * hid_dim, nhead=16),
														
@@ -10,7 +11,9 @@ name_to_block = {'ffn': lambda hid_dim: FeedforwardBlock(hid_dim),
 
															 name_to_input = {'ffn': lambda batch_size, hid_dim: torch.empty((batch_size, hid_dim)),
														
 
															                  'transformer': lambda batch_size, hid_dim:
														
 
															-                 (torch.empty((batch_size, 128, hid_dim)), torch.empty((batch_size, hid_dim), dtype=torch.bool)),
														
 
															+                 (torch.empty((batch_size, 128, hid_dim)), torch.empty((batch_size, 128), dtype=torch.bool)),
														
 
															                  'nop': lambda batch_size, hid_dim: torch.empty((batch_size, hid_dim)),
														
 
															                  'det_dropout': lambda batch_size, hid_dim:
														
 
															                  (torch.empty((batch_size, hid_dim)), torch.randint(0, 1, (batch_size, hid_dim)))}
														
 
															+
														
 
															+schedule_name_to_scheduler = {'linear': get_linear_schedule_with_warmup, 'none': None}
														
--- a/hivemind/server/layers/lr_schedule.py
+++ b/hivemind/server/layers/lr_schedule.py
@@ -0,0 +1,27 @@
 
															+from torch.optim.lr_scheduler import LambdaLR
														
 
															+
														
 
															+
														
 
															+# https://github.com/huggingface/transformers/blob/master/src/transformers/optimization.py
														
 
															+def get_linear_schedule_with_warmup(optimizer, num_warmup_steps, num_training_steps):
														
 
															+    """
														
 
															+    Create a schedule with a learning rate that decreases linearly from the initial lr set in the optimizer to 0, after
														
 
															+    a warmup period during which it increases linearly from 0 to the initial lr set in the optimizer.
														
 
															+    Args:
														
 
															+        optimizer (:class:`~torch.optim.Optimizer`):
														
 
															+            The optimizer for which to schedule the learning rate.
														
 
															+        num_warmup_steps (:obj:`int`):
														
 
															+            The number of steps for the warmup phase.
														
 
															+        num_training_steps (:obj:`int`):
														
 
															+            The total number of training steps.
														
 
															+    Return:
														
 
															+        :obj:`torch.optim.lr_scheduler.LambdaLR` with the appropriate schedule.
														
 
															+    """
														
 
															+
														
 
															+    def lr_lambda(current_step: int):
														
 
															+        if current_step < num_warmup_steps:
														
 
															+            return float(current_step) / float(max(1, num_warmup_steps))
														
 
															+        return max(
														
 
															+            0.0, float(num_training_steps - current_step) / float(max(1, num_training_steps - num_warmup_steps))
														
 
															+        )
														
 
															+
														
 
															+    return LambdaLR(optimizer, lr_lambda)
														
--- a/hivemind/server/runtime.py
+++ b/hivemind/server/runtime.py
@@ -59,7 +59,7 @@ class Runtime(threading.Thread):
 
															                 pool.start()
														
 
															         if self.device is not None:
														
 
															             for expert_backend in self.expert_backends.values():
														
 
															-                expert_backend.to(self.device)
														
 
															+                expert_backend.expert.to(self.device)
														
 
															         with mp.pool.ThreadPool(self.sender_threads) as output_sender_pool:
														
 
															             try:
														
--- a/hivemind/server/task_pool.py
+++ b/hivemind/server/task_pool.py
@@ -3,11 +3,11 @@ Task pool is responsible for receiving tasks and grouping them together for proc
 
															 """
														
 
															 import ctypes
														
 
															 import multiprocessing as mp
														
 
															-import multiprocessing.context
														
 
															 import os
														
 
															 import threading
														
 
															 import time
														
 
															 import uuid
														
 
															+from abc import ABCMeta, abstractmethod
														
 
															 from collections import namedtuple
														
 
															 from concurrent.futures import Future
														
 
															 from queue import Empty
														
@@ -21,7 +21,7 @@ logger = get_logger(__name__)
 
															 Task = namedtuple("Task", ("future", "args"))
														
 
															-class TaskPoolBase(mp.context.ForkProcess):
														
 
															+class TaskPoolBase(mp.context.ForkProcess, metaclass=ABCMeta):
														
 
															     """ A pool that accepts tasks and forms batches for parallel processing, interacts with Runtime """
														
 
															     def __init__(self, process_func: callable, daemon=True):
														
@@ -29,14 +29,17 @@ class TaskPoolBase(mp.context.ForkProcess):
 
															         self.process_func = process_func
														
 
															         self._priority = mp.Value(ctypes.c_double, 1.0)  # higher priority = the more urgent to process this pool
														
 
															+    @abstractmethod
														
 
															     def run(self):
														
 
															-        raise NotImplementedError()
														
 
															+        pass
														
 
															+    @abstractmethod
														
 
															     def submit_task(self, *args: torch.Tensor) -> Future:
														
 
															-        raise NotImplementedError()
														
 
															+        pass
														
 
															+    @abstractmethod
														
 
															     def iterate_minibatches(self, *args, **kwargs) -> Generator[List[Task], None, None]:
														
 
															-        raise NotImplementedError()
														
 
															+        pass
														
 
															     @property
														
 
															     def priority(self):
														
@@ -47,8 +50,9 @@ class TaskPoolBase(mp.context.ForkProcess):
 
															         self._priority.value = float(value)
														
 
															     @property
														
 
															+    @abstractmethod
														
 
															     def empty(self):
														
 
															-        raise NotImplementedError()
														
 
															+        pass
														
 
															 class TaskPool(TaskPoolBase):
														
--- a/hivemind/utils/serializer.py
+++ b/hivemind/utils/serializer.py
@@ -1,9 +1,8 @@
 
															 """ A unified interface for several common serialization methods """
														
 
															-from io import BytesIO
														
 
															 from typing import Dict, Any
														
 
															-import torch
														
 
															 import msgpack
														
 
															+
														
 
															 from hivemind.utils.logging import get_logger
														
 
															 logger = get_logger(__name__)
														
--- a/hivemind/utils/tensor_descr.py
+++ b/hivemind/utils/tensor_descr.py
@@ -8,6 +8,8 @@ from hivemind.proto.runtime_pb2 import CompressionType
 
															 DUMMY_BATCH_SIZE = 3  # used for dummy runs only
														
 
															 warnings.filterwarnings("ignore", "CUDA initialization*", category=UserWarning)
														
 
															+
														
 
															+
														
 
															 # ^-- cures https://github.com/pytorch/pytorch/issues/47038
														
@@ -32,11 +34,13 @@ class TensorDescriptor(DescriptorBase):
 
															     @classmethod
														
 
															     def from_tensor(cls, tensor: torch.Tensor):
														
 
															-        return cls(tensor.shape, tensor.dtype, tensor.layout, tensor.device, tensor.requires_grad, safe_check_pinned(tensor))
														
 
															+        return cls(tensor.shape, tensor.dtype, tensor.layout, tensor.device, tensor.requires_grad,
														
 
															+                   safe_check_pinned(tensor))
														
 
															     def make_empty(self, **kwargs):
														
 
															         properties = asdict(self)
														
 
															         properties.update(kwargs)
														
 
															+        properties.pop('compression')
														
 
															         return torch.empty(**properties)
														
@@ -60,7 +64,7 @@ class BatchTensorDescriptor(TensorDescriptor):
 
															         assert self.shape[0] is None, "Make sure 0-th dimension is not specified (set to None)"
														
 
															         return super().make_empty(size=(batch_size, *self.shape[1:]), **kwargs)
														
 
															-    
														
 
															+
														
 
															 def safe_check_pinned(tensor: torch.Tensor) -> bool:
														
 
															     """ Check whether or not a tensor is pinned. If torch cannot initialize cuda, returns False instead of error. """
														
 
															     try:
														
--- a/tests/benchmark_throughput.py
+++ b/tests/benchmark_throughput.py
@@ -65,7 +65,7 @@ def benchmark_throughput(num_experts=16, num_handlers=None, num_clients=128, num
 
															         for i in range(num_experts):
														
 
															             expert = torch.jit.script(layers.name_to_block[expert_cls](hid_dim))
														
 
															             experts[f'expert{i}'] = hivemind.ExpertBackend(name=f'expert{i}',
														
 
															-                                                           expert=expert, opt=torch.optim.Adam(expert.parameters()),
														
 
															+                                                           expert=expert, optimizer=torch.optim.Adam(expert.parameters()),
														
 
															                                                            args_schema=(hivemind.BatchTensorDescriptor(hid_dim),),
														
 
															                                                            outputs_schema=hivemind.BatchTensorDescriptor(hid_dim),
														
 
															                                                            max_batch_size=max_batch_size,
														
--- a/tests/test_checkpoints.py
+++ b/tests/test_checkpoints.py
@@ -1,76 +0,0 @@
 
															-from pathlib import Path
														
 
															-from tempfile import TemporaryDirectory
														
 
															-
														
 
															-import pytest
														
 
															-import torch
														
 
															-from torch.nn import Linear
														
 
															-
														
 
															-from hivemind import BatchTensorDescriptor, ExpertBackend
														
 
															-from hivemind.server.checkpoints import store_experts, load_weights
														
 
															-
														
 
															-EXPERT_WEIGHT_UPDATES = 3
														
 
															-BACKWARD_PASSES_BEFORE_SAVE = 2
														
 
															-BACKWARD_PASSES_AFTER_SAVE = 2
														
 
															-
														
 
															-
														
 
															-@pytest.mark.forked
														
 
															-def test_save_load_checkpoints():
														
 
															-    experts = {}
														
 
															-    expert = Linear(1, 1)
														
 
															-    opt = torch.optim.SGD(expert.parameters(), 0.0)
														
 
															-    expert_name = f'test_expert'
														
 
															-    args_schema = (BatchTensorDescriptor(1),)
														
 
															-    experts[expert_name] = ExpertBackend(name=expert_name, expert=expert, opt=opt,
														
 
															-                                         args_schema=args_schema,
														
 
															-                                         outputs_schema=BatchTensorDescriptor(1),
														
 
															-                                         max_batch_size=1,
														
 
															-                                         )
														
 
															-    with TemporaryDirectory() as tmpdir:
														
 
															-        tmp_path = Path(tmpdir)
														
 
															-
														
 
															-        for i in range(1, EXPERT_WEIGHT_UPDATES + 1):
														
 
															-            expert.weight.data[0] = i
														
 
															-            store_experts(experts, tmp_path)
														
 
															-
														
 
															-        checkpoints_dir = tmp_path / expert_name
														
 
															-
														
 
															-        assert checkpoints_dir.exists()
														
 
															-        # include checkpoint_last.pt
														
 
															-        assert len(list(checkpoints_dir.iterdir())) == EXPERT_WEIGHT_UPDATES + 1
														
 
															-
														
 
															-        expert.weight.data[0] = 0
														
 
															-
														
 
															-        load_weights(experts, tmp_path)
														
 
															-        assert expert.weight.data[0] == EXPERT_WEIGHT_UPDATES
														
 
															-
														
 
															-
														
 
															-@pytest.mark.forked
														
 
															-def test_restore_update_count():
														
 
															-    experts = {}
														
 
															-    expert = Linear(1, 1)
														
 
															-    opt = torch.optim.SGD(expert.parameters(), 0.0)
														
 
															-    expert_name = f'test_expert'
														
 
															-    args_schema = (BatchTensorDescriptor(1),)
														
 
															-    expert_backend = ExpertBackend(name=expert_name, expert=expert, opt=opt,
														
 
															-                                   args_schema=args_schema,
														
 
															-                                   outputs_schema=BatchTensorDescriptor(1),
														
 
															-                                   max_batch_size=1,
														
 
															-                                   )
														
 
															-    experts[expert_name] = expert_backend
														
 
															-
														
 
															-    batch = torch.randn(1, 1)
														
 
															-    loss_grad = torch.randn(1, 1)
														
 
															-
														
 
															-    with TemporaryDirectory() as tmpdir:
														
 
															-        tmp_path = Path(tmpdir)
														
 
															-
														
 
															-        for _ in range(BACKWARD_PASSES_BEFORE_SAVE):
														
 
															-            expert_backend.backward(batch, loss_grad)
														
 
															-
														
 
															-        store_experts(experts, tmp_path)
														
 
															-
														
 
															-        for _ in range(BACKWARD_PASSES_AFTER_SAVE):
														
 
															-            expert_backend.backward(batch, loss_grad)
														
 
															-
														
 
															-        load_weights(experts, tmp_path)
														
 
															-        assert experts[expert_name].update_count == BACKWARD_PASSES_BEFORE_SAVE
														
--- a/tests/test_dht_experts.py
+++ b/tests/test_dht_experts.py
@@ -21,7 +21,7 @@ def test_store_get_experts():
 
															     first_peer = random.choice(peers)
														
 
															     other_peer = random.choice(peers)
														
 
															-    expert_uids = [f"my_expert.{i}" for i in range(110)]
														
 
															+    expert_uids = [f"my_expert.{i}" for i in range(50)]
														
 
															     batch_size = 10
														
 
															     for batch_start in range(0, len(expert_uids), batch_size):
														
 
															         hivemind.declare_experts(first_peer, expert_uids[batch_start: batch_start + batch_size], 'localhost:1234')
														
@@ -41,7 +41,7 @@ def test_store_get_experts():
 
															 @pytest.mark.forked
														
 
															-def test_beam_search(dht_size=20, total_experts=128, batch_size=32, initial_peers=3, beam_size=4, parallel_rpc=16,
														
 
															+def test_beam_search(dht_size=20, total_experts=128, batch_size=32, initial_peers=3, beam_size=4, parallel_rpc=4,
														
 
															                      grid_dims=(32, 32, 32)):
														
 
															     dht = []
														
 
															     for i in range(dht_size):
														
@@ -61,7 +61,7 @@ def test_beam_search(dht_size=20, total_experts=128, batch_size=32, initial_peer
 
															     you = hivemind.DHT(start=True, expiration=999999, initial_peers=neighbors_i, parallel_rpc=parallel_rpc)
														
 
															     beam_search = MoEBeamSearcher(you, 'expert.', grid_dims)
														
 
															-    for i in range(50):
														
 
															+    for i in range(10):
														
 
															         topk_experts = beam_search.find_best_experts([np.random.randn(dim) for dim in grid_dims], beam_size)
														
 
															         assert all(isinstance(e, hivemind.RemoteExpert) for e in topk_experts)
														
 
															         assert len(topk_experts) == beam_size
														
--- a/tests/test_dht_node.py
+++ b/tests/test_dht_node.py
@@ -428,7 +428,6 @@ async def test_dhtnode_blacklist():
 
															 @pytest.mark.forked
														
 
															 @pytest.mark.asyncio
														
 
															 async def test_dhtnode_validate(fake_endpoint='127.0.0.721:*'):
														
 
															-
														
 
															     node1 = await hivemind.DHTNode.create(blacklist_time=999)
														
 
															     with pytest.raises(ValidationError):
														
 
															         node2 = await hivemind.DHTNode.create(blacklist_time=999, initial_peers=[f"{LOCALHOST}:{node1.port}"],
														
@@ -441,7 +440,7 @@ async def test_dhtnode_edge_cases():
 
															     peers = []
														
 
															     for i in range(5):
														
 
															         neighbors_i = [f'{LOCALHOST}:{node.port}' for node in random.sample(peers, min(3, len(peers)))]
														
 
															-        peers.append(await hivemind.DHTNode.create(initial_peers=neighbors_i, parallel_rpc=256))
														
 
															+        peers.append(await hivemind.DHTNode.create(initial_peers=neighbors_i, parallel_rpc=4))
														
 
															     subkeys = [0, '', False, True, 'abyrvalg', 4555]
														
 
															     keys = subkeys + [()]
														
--- a/tests/test_expert_backend.py
+++ b/tests/test_expert_backend.py
@@ -0,0 +1,106 @@
 
															+from pathlib import Path
														
 
															+from tempfile import TemporaryDirectory
														
 
															+
														
 
															+import pytest
														
 
															+import torch
														
 
															+from torch.nn import Linear
														
 
															+
														
 
															+from hivemind import BatchTensorDescriptor, ExpertBackend
														
 
															+from hivemind.server.checkpoints import store_experts, load_experts
														
 
															+from hivemind.server.layers.lr_schedule import get_linear_schedule_with_warmup
														
 
															+
														
 
															+EXPERT_WEIGHT_UPDATES = 3
														
 
															+BACKWARD_PASSES_BEFORE_SAVE = 2
														
 
															+BACKWARD_PASSES_AFTER_SAVE = 2
														
 
															+EXPERT_NAME = 'test_expert'
														
 
															+PEAK_LR = 1.0
														
 
															+
														
 
															+
														
 
															+@pytest.fixture
														
 
															+def example_experts():
														
 
															+    expert = Linear(1, 1)
														
 
															+    opt = torch.optim.SGD(expert.parameters(), PEAK_LR)
														
 
															+
														
 
															+    args_schema = (BatchTensorDescriptor(1),)
														
 
															+    expert_backend = ExpertBackend(name=EXPERT_NAME, expert=expert, optimizer=opt,
														
 
															+                                   scheduler=get_linear_schedule_with_warmup,
														
 
															+                                   num_warmup_steps=BACKWARD_PASSES_BEFORE_SAVE,
														
 
															+                                   num_training_steps=BACKWARD_PASSES_BEFORE_SAVE + BACKWARD_PASSES_AFTER_SAVE,
														
 
															+                                   args_schema=args_schema, outputs_schema=BatchTensorDescriptor(1), max_batch_size=1,
														
 
															+                                   )
														
 
															+    experts = {EXPERT_NAME: expert_backend}
														
 
															+    yield experts
														
 
															+
														
 
															+
														
 
															+@pytest.mark.forked
														
 
															+def test_save_load_checkpoints(example_experts):
														
 
															+    expert = example_experts[EXPERT_NAME].expert
														
 
															+
														
 
															+    with TemporaryDirectory() as tmpdir:
														
 
															+        tmp_path = Path(tmpdir)
														
 
															+
														
 
															+        for i in range(1, EXPERT_WEIGHT_UPDATES + 1):
														
 
															+            expert.weight.data[0] = i
														
 
															+            store_experts(example_experts, tmp_path)
														
 
															+
														
 
															+        checkpoints_dir = tmp_path / EXPERT_NAME
														
 
															+
														
 
															+        assert checkpoints_dir.exists()
														
 
															+        # include checkpoint_last.pt
														
 
															+        assert len(list(checkpoints_dir.iterdir())) == EXPERT_WEIGHT_UPDATES + 1
														
 
															+
														
 
															+        expert.weight.data[0] = 0
														
 
															+
														
 
															+        load_experts(example_experts, tmp_path)
														
 
															+        assert expert.weight.data[0] == EXPERT_WEIGHT_UPDATES
														
 
															+
														
 
															+
														
 
															+@pytest.mark.forked
														
 
															+def test_restore_update_count(example_experts):
														
 
															+    expert_backend = example_experts[EXPERT_NAME]
														
 
															+
														
 
															+    batch = torch.randn(1, 1)
														
 
															+    loss_grad = torch.randn(1, 1)
														
 
															+
														
 
															+    with TemporaryDirectory() as tmpdir:
														
 
															+        tmp_path = Path(tmpdir)
														
 
															+
														
 
															+        for _ in range(BACKWARD_PASSES_BEFORE_SAVE):
														
 
															+            expert_backend.backward(batch, loss_grad)
														
 
															+
														
 
															+        store_experts(example_experts, tmp_path)
														
 
															+
														
 
															+        for _ in range(BACKWARD_PASSES_AFTER_SAVE):
														
 
															+            expert_backend.backward(batch, loss_grad)
														
 
															+
														
 
															+        load_experts(example_experts, tmp_path)
														
 
															+        assert expert_backend.update_count == BACKWARD_PASSES_BEFORE_SAVE
														
 
															+
														
 
															+
														
 
															+@pytest.mark.forked
														
 
															+def test_lr_schedule(example_experts):
														
 
															+    expert_backend = example_experts[EXPERT_NAME]
														
 
															+    optimizer = expert_backend.optimizer
														
 
															+
														
 
															+    batch = torch.randn(1, 1)
														
 
															+    loss_grad = torch.randn(1, 1)
														
 
															+
														
 
															+    with TemporaryDirectory() as tmpdir:
														
 
															+        tmp_path = Path(tmpdir)
														
 
															+
														
 
															+        assert optimizer.param_groups[0]['lr'] == 0.0
														
 
															+
														
 
															+        for i in range(BACKWARD_PASSES_BEFORE_SAVE):
														
 
															+            assert optimizer.param_groups[0]['lr'] == PEAK_LR * i / BACKWARD_PASSES_BEFORE_SAVE
														
 
															+            expert_backend.backward(batch, loss_grad)
														
 
															+
														
 
															+        assert optimizer.param_groups[0]['lr'] == PEAK_LR
														
 
															+        store_experts(example_experts, tmp_path)
														
 
															+
														
 
															+        for i in range(BACKWARD_PASSES_AFTER_SAVE):
														
 
															+            assert optimizer.param_groups[0]['lr'] == PEAK_LR * (1 - (i / BACKWARD_PASSES_AFTER_SAVE))
														
 
															+            expert_backend.backward(batch, loss_grad)
														
 
															+
														
 
															+        assert optimizer.param_groups[0]['lr'] == 0.0
														
 
															+        load_experts(example_experts, tmp_path)
														
 
															+        assert optimizer.param_groups[0]['lr'] == PEAK_LR
														
--- a/tests/test_moe.py
+++ b/tests/test_moe.py
@@ -12,15 +12,15 @@ from hivemind.server import layers
 
															 @pytest.mark.forked
														
 
															 def test_moe():
														
 
															     all_expert_uids = [f'ffn.{np.random.randint(0, 3)}.{np.random.randint(0, 3)}.{np.random.randint(0, 3)}'
														
 
															-                       for _ in range(20)]
														
 
															-    with background_server(expert_uids=all_expert_uids, device='cpu', expert_cls='ffn',
														
 
															-                           num_handlers=1, hidden_dim=16) as (server_endpoint, dht_endpoint):
														
 
															+                       for _ in range(10)]
														
 
															+    with background_server(expert_uids=all_expert_uids, device='cpu', expert_cls='ffn', num_handlers=1,
														
 
															+                           hidden_dim=16) as (server_endpoint, dht_endpoint):
														
 
															         dht = hivemind.DHT(start=True, expiration=999, initial_peers=[dht_endpoint])
														
 
															         dmoe = hivemind.RemoteMixtureOfExperts(
														
 
															             in_features=16, grid_size=(32, 32, 32), dht=dht, k_best=3, uid_prefix='ffn.')
														
 
															-        for i in range(10):
														
 
															+        for i in range(5):
														
 
															             out = dmoe(torch.randn(10, 16))
														
 
															             out.sum().backward()
														
@@ -35,7 +35,7 @@ def test_call_many(hidden_dim=16):
 
															     detect_anomalies = False
														
 
															     atol = 1e-5
														
 
															-    with background_server(num_experts=5, device='cpu', expert_cls='ffn', num_handlers=8, hidden_dim=hidden_dim,
														
 
															+    with background_server(num_experts=5, device='cpu', expert_cls='ffn', num_handlers=1, hidden_dim=hidden_dim,
														
 
															                            optim_cls=None, no_dht=True) as (server_endpoint, dht_endpoint):
														
 
															         inputs = torch.randn(4, hidden_dim, requires_grad=True)
														
 
															         inputs_clone = inputs.clone().detach().requires_grad_(True)
														
@@ -182,7 +182,7 @@ def test_client_anomaly_detection():
 
															     for i in range(4):
														
 
															         expert = layers.name_to_block['ffn'](HID_DIM)
														
 
															         experts[f'expert.{i}'] = hivemind.ExpertBackend(name=f'expert.{i}',
														
 
															-                                                        expert=expert, opt=torch.optim.Adam(expert.parameters()),
														
 
															+                                                        expert=expert, optimizer=torch.optim.Adam(expert.parameters()),
														
 
															                                                         args_schema=(hivemind.BatchTensorDescriptor(HID_DIM),),
														
 
															                                                         outputs_schema=hivemind.BatchTensorDescriptor(HID_DIM),
														
 
															                                                         max_batch_size=16,
														
--- a/tests/test_training.py
+++ b/tests/test_training.py
@@ -1,5 +1,4 @@
 
															 from functools import partial
														
 
															-from typing import Optional
														
 
															 import pytest
														
 
															 import torch
														
@@ -11,12 +10,13 @@ from hivemind import RemoteExpert, background_server
 
															 @pytest.mark.forked
														
 
															-def test_training(port: Optional[int] = None, max_steps: int = 100, threshold: float = 0.9):
														
 
															+def test_training(max_steps: int = 100, threshold: float = 0.9):
														
 
															     dataset = load_digits()
														
 
															     X_train, y_train = torch.tensor(dataset['data'], dtype=torch.float), torch.tensor(dataset['target'])
														
 
															     SGD = partial(torch.optim.SGD, lr=0.05)
														
 
															-    with background_server(num_experts=2, device='cpu', optim_cls=SGD, hidden_dim=64) as (server_endpoint, _):
														
 
															+    with background_server(num_experts=2, device='cpu', optim_cls=SGD, hidden_dim=64, num_handlers=1,
														
 
															+                           no_dht=True) as (server_endpoint, dht_endpoint):
														
 
															         expert1 = RemoteExpert('expert.0', server_endpoint)
														
 
															         expert2 = RemoteExpert('expert.1', server_endpoint)
														
 
															         model = nn.Sequential(expert2, nn.Tanh(), expert1, nn.Linear(64, 10))