4 лет назад · d092810322
--- a/hivemind/__init__.py
+++ b/hivemind/__init__.py
@@ -3,4 +3,4 @@ from hivemind.dht import *
 
				 from hivemind.server import *
			
 
				 from hivemind.utils import *
			
 
				 
			
 
				-__version__ = '0.8.23'
			
 
				+__version__ = '0.8.24'
			
--- a/hivemind/server/__init__.py
+++ b/hivemind/server/__init__.py
@@ -7,12 +7,13 @@ import threading
 
				 from contextlib import contextmanager
			
 
				 from functools import partial
			
 
				 from typing import Dict, Optional, Tuple, List
			
 
				+from pathlib import Path
			
 
				 
			
 
				 import torch
			
 
				 
			
 
				 import hivemind
			
 
				 from hivemind.dht import DHT
			
 
				-from hivemind.server.checkpoint_saver import CheckpointSaver
			
 
				+from hivemind.server.checkpoints import CheckpointSaver, load_weights, dir_is_correct
			
 
				 from hivemind.server.connection_handler import ConnectionHandler
			
 
				 from hivemind.server.dht_handler import DHTHandlerThread
			
 
				 from hivemind.server.expert_backend import ExpertBackend
			
@@ -69,8 +70,8 @@ class Server(threading.Thread):
 
				     @staticmethod
			
 
				     def create(listen_on='0.0.0.0:*', num_experts: int = None, expert_uids: str = None, expert_pattern: str = None,
			
 
				                expert_cls='ffn', hidden_dim=1024, optim_cls=torch.optim.Adam, num_handlers=None, max_batch_size=4096,
			
 
				-               device=None, no_dht=False, initial_peers=(), dht_port=None,
			
 
				-               compression=CompressionType.NONE, *, start: bool, **kwargs) -> Server:
			
 
				+               device=None, no_dht=False, initial_peers=(), dht_port=None, checkpoint_dir: Optional[Path] = None,
			
 
				+               load_experts=False, compression=CompressionType.NONE, *, start: bool, **kwargs) -> Server:
			
 
				         """
			
 
				         Instantiate a server with several identical experts. See argparse comments below for details
			
 
				         :param listen_on: network interface with address and (optional) port, e.g. "127.0.0.1:1337" or "[::]:80"
			
@@ -91,6 +92,9 @@ class Server(threading.Thread):
 
				         :param dht_port:  DHT node will listen on this port, default = find open port
			
 
				            You can then use this node as initial peer for subsequent servers.
			
 
				 
			
 
				+        :param checkpoint_dir: directory to save expert checkpoints
			
 
				+        :param load_experts: whether to load expert checkpoints from checkpoint_dir
			
 
				+
			
 
				         :param compression: if specified, use this compression to pack all inputs, outputs and gradients by all experts
			
 
				             hosted on this server. For a more fine-grained compression, start server in python and specify compression
			
 
				             for each BatchTensorProto in ExpertBackend for the respective experts.
			
@@ -100,8 +104,6 @@ class Server(threading.Thread):
 
				         if len(kwargs) != 0:
			
 
				             logger.info("Ignored kwargs:", kwargs)
			
 
				         assert expert_cls in name_to_block
			
 
				-        assert (expert_pattern is None and num_experts is None) or (expert_uids is None) or (num_experts == 0), \
			
 
				-            "Please provide either expert_uids *or* num_experts and expert_pattern, but not both"
			
 
				 
			
 
				         if no_dht:
			
 
				             dht = None
			
@@ -110,7 +112,19 @@ class Server(threading.Thread):
 
				             dht = hivemind.DHT(initial_peers=initial_peers, start=True, listen_on=dht_endpoint)
			
 
				             logger.info(f"Running DHT node on port {dht.port}, initial peers = {initial_peers}")
			
 
				 
			
 
				-        # get expert uids
			
 
				+        if load_experts:
			
 
				+            assert dir_is_correct(checkpoint_dir)
			
 
				+            assert expert_uids is None, "Can't both load saved experts and create new ones from given UIDs"
			
 
				+            expert_uids = [child.name for child in checkpoint_dir.iterdir() if (child / 'checkpoint_last.pt').exists()]
			
 
				+            if expert_uids:
			
 
				+                logger.info(f"Located checkpoints for experts {expert_uids}, ignoring UID generation options")
			
 
				+            else:
			
 
				+                logger.info(f"No expert checkpoints found in {checkpoint_dir}, generating...")
			
 
				+
			
 
				+        assert (expert_pattern is None and num_experts is None) or (expert_uids is None) or (num_experts == 0), \
			
 
				+            "Please provide either expert_uids *or* num_experts and expert_pattern, but not both"
			
 
				+
			
 
				+        # get expert uids if not loaded previously
			
 
				         if expert_uids is None:
			
 
				             assert num_experts is not None, "Please specify either expert_uids or num_experts [and expert_pattern]"
			
 
				             logger.info(f"Generating expert uids from pattern {expert_pattern}")
			
@@ -138,6 +152,9 @@ class Server(threading.Thread):
 
				                                                          opt=optim_cls(expert.parameters()),
			
 
				                                                          max_batch_size=max_batch_size)
			
 
				 
			
 
				+        if load_experts:
			
 
				+            load_weights(experts, checkpoint_dir)
			
 
				+
			
 
				         server = Server(dht, experts, listen_on=listen_on, num_connection_handlers=num_handlers, device=device,
			
 
				                         start=start)
			
 
				         return server
			
--- a/hivemind/server/checkpoint_saver.py
+++ b/hivemind/server/checkpoint_saver.py
@@ -4,37 +4,53 @@ from pathlib import Path
 
				 from shutil import copytree
			
 
				 from tempfile import TemporaryDirectory
			
 
				 from typing import Dict
			
 
				+import os
			
 
				 
			
 
				 import torch
			
 
				 
			
 
				 from hivemind.server.expert_backend import ExpertBackend
			
 
				 
			
 
				 
			
 
				+def dir_is_correct(directory: Path):
			
 
				+    assert directory is not None
			
 
				+    assert directory.exists()
			
 
				+    assert directory.is_dir()
			
 
				+    return True
			
 
				+
			
 
				+
			
 
				 class CheckpointSaver(threading.Thread):
			
 
				     def __init__(self, expert_backends: Dict[str, ExpertBackend], checkpoint_dir: Path, update_period: int):
			
 
				         super().__init__()
			
 
				+        assert dir_is_correct(checkpoint_dir)
			
 
				         self.expert_backends = expert_backends
			
 
				         self.update_period = update_period
			
 
				         self.checkpoint_dir = checkpoint_dir
			
 
				         self.stop = threading.Event()
			
 
				 
			
 
				+        # create expert directories to ensure that the directory is writable and checkpoints can be loaded
			
 
				+        store_experts(self.expert_backends, self.checkpoint_dir)
			
 
				+
			
 
				     def run(self) -> None:
			
 
				         while not self.stop.wait(self.update_period):
			
 
				             store_experts(self.expert_backends, self.checkpoint_dir)
			
 
				 
			
 
				 
			
 
				-def store_experts(experts: Dict[str, ExpertBackend], checkpoints_dir: Path):
			
 
				+def store_experts(experts: Dict[str, ExpertBackend], checkpoint_dir: Path):
			
 
				+    assert dir_is_correct(checkpoint_dir)
			
 
				     timestamp = datetime.now().isoformat(sep='_')
			
 
				     with TemporaryDirectory() as tmpdirname:
			
 
				         for expert_name, expert_backend in experts.items():
			
 
				             expert_dir = Path(tmpdirname) / expert_name
			
 
				             expert_dir.mkdir()
			
 
				-            torch.save(expert_backend.state_dict(), expert_dir / f'checkpoint_{timestamp}.pt')
			
 
				-        copytree(tmpdirname, str(checkpoints_dir), dirs_exist_ok=True)
			
 
				+            checkpoint_name = expert_dir / f'checkpoint_{timestamp}.pt'
			
 
				+            torch.save(expert_backend.state_dict(), checkpoint_name)
			
 
				+            os.symlink(checkpoint_name, expert_dir / 'checkpoint_last.pt')
			
 
				+        copytree(tmpdirname, str(checkpoint_dir), dirs_exist_ok=True)
			
 
				 
			
 
				 
			
 
				-def load_weights(experts: Dict[str, ExpertBackend], checkpoints_dir: Path):
			
 
				+def load_weights(experts: Dict[str, ExpertBackend], checkpoint_dir: Path):
			
 
				+    assert dir_is_correct(checkpoint_dir)
			
 
				     for expert_name, expert in experts.items():
			
 
				-        checkpoints_folder = checkpoints_dir / expert_name
			
 
				-        latest_checkpoint = max(checkpoints_folder.glob('checkpoint_*.pt'))
			
 
				+        checkpoints_folder = checkpoint_dir / expert_name
			
 
				+        latest_checkpoint = checkpoints_folder / 'checkpoint_last.pt'
			
 
				         expert.load_state_dict(torch.load(latest_checkpoint))
			
--- a/hivemind/server/expert_backend.py
+++ b/hivemind/server/expert_backend.py
@@ -61,6 +61,8 @@ class ExpertBackend(nn.Module):
 
				         self.forward_pool = TaskPool(self.forward, uid=f'{self.name}_forward', **kwargs)
			
 
				         self.backward_pool = TaskPool(self.backward, uid=f'{self.name}_backward', **kwargs)
			
 
				 
			
 
				+        self.register_buffer('update_count', torch.zeros(1, dtype=torch.long))
			
 
				+
			
 
				     def forward(self, *inputs: torch.Tensor) -> Tuple[torch.Tensor, ...]:
			
 
				         """
			
 
				         Apply forward pass to an aggregated batch of requests. Used by Runtime, do not call this manually;
			
@@ -130,6 +132,7 @@ class ExpertBackend(nn.Module):
 
				         """
			
 
				         self.opt.step()
			
 
				         self.opt.zero_grad()
			
 
				+        self.update_count += 1
			
 
				 
			
 
				     def get_info(self) -> Dict[str, Any]:
			
 
				         """ Get expert parameters and stats. Used by RemoteExpert to check shapes and for DMoE orchestration. """
			
--- a/scripts/run_server.py
+++ b/scripts/run_server.py
@@ -1,4 +1,5 @@
 
				 from functools import partial
			
 
				+from pathlib import Path
			
 
				 
			
 
				 import configargparse
			
 
				 import torch
			
@@ -43,6 +44,9 @@ def main():
 
				                              'a server can spawn before hitting "Too many open files"; Use at your own risk.')
			
 
				     parser.add_argument('--compression', type=str, default='NONE', required=False, help='Tensor compression '
			
 
				                         'parameter for grpc. Can be NONE, MEANSTD or FLOAT16')
			
 
				+    parser.add_argument('--checkpoint_dir', type=Path, required=False, help='Directory to store expert checkpoints')
			
 
				+    parser.add_argument('--load_experts', action='store_true', help='Load experts from the checkpoint directory')
			
 
				+
			
 
				     # fmt:on
			
 
				     args = vars(parser.parse_args())
			
 
				     args.pop('config', None)
			
--- a/tests/test_checkpoints.py
+++ b/tests/test_checkpoints.py
@@ -1,13 +1,19 @@
 
				 from pathlib import Path
			
 
				 from tempfile import TemporaryDirectory
			
 
				 
			
 
				+import pytest
			
 
				 import torch
			
 
				 from torch.nn import Linear
			
 
				 
			
 
				 from hivemind import BatchTensorDescriptor, ExpertBackend
			
 
				-from hivemind.server.checkpoint_saver import store_experts, load_weights
			
 
				+from hivemind.server.checkpoints import store_experts, load_weights
			
 
				 
			
 
				+EXPERT_WEIGHT_UPDATES = 3
			
 
				+BACKWARD_PASSES_BEFORE_SAVE = 2
			
 
				+BACKWARD_PASSES_AFTER_SAVE = 2
			
 
				 
			
 
				+
			
 
				+@pytest.mark.forked
			
 
				 def test_save_load_checkpoints():
			
 
				     experts = {}
			
 
				     expert = Linear(1, 1)
			
@@ -22,19 +28,49 @@ def test_save_load_checkpoints():
 
				     with TemporaryDirectory() as tmpdir:
			
 
				         tmp_path = Path(tmpdir)
			
 
				 
			
 
				-        expert.weight.data[0] = 1
			
 
				-        store_experts(experts, tmp_path)
			
 
				-        expert.weight.data[0] = 2
			
 
				-        store_experts(experts, tmp_path)
			
 
				-        expert.weight.data[0] = 3
			
 
				-        store_experts(experts, tmp_path)
			
 
				+        for i in range(1, EXPERT_WEIGHT_UPDATES + 1):
			
 
				+            expert.weight.data[0] = i
			
 
				+            store_experts(experts, tmp_path)
			
 
				 
			
 
				         checkpoints_dir = tmp_path / expert_name
			
 
				 
			
 
				         assert checkpoints_dir.exists()
			
 
				-        assert len(list(checkpoints_dir.iterdir())) == 3
			
 
				+        # include checkpoint_last.pt
			
 
				+        assert len(list(checkpoints_dir.iterdir())) == EXPERT_WEIGHT_UPDATES + 1
			
 
				+
			
 
				+        expert.weight.data[0] = 0
			
 
				+
			
 
				+        load_weights(experts, tmp_path)
			
 
				+        assert expert.weight.data[0] == EXPERT_WEIGHT_UPDATES
			
 
				+
			
 
				+
			
 
				+@pytest.mark.forked
			
 
				+def test_restore_update_count():
			
 
				+    experts = {}
			
 
				+    expert = Linear(1, 1)
			
 
				+    opt = torch.optim.SGD(expert.parameters(), 0.0)
			
 
				+    expert_name = f'test_expert'
			
 
				+    args_schema = (BatchTensorDescriptor(1),)
			
 
				+    expert_backend = ExpertBackend(name=expert_name, expert=expert, opt=opt,
			
 
				+                                   args_schema=args_schema,
			
 
				+                                   outputs_schema=BatchTensorDescriptor(1),
			
 
				+                                   max_batch_size=1,
			
 
				+                                   )
			
 
				+    experts[expert_name] = expert_backend
			
 
				+
			
 
				+    batch = torch.randn(1, 1)
			
 
				+    loss_grad = torch.randn(1, 1)
			
 
				+
			
 
				+    with TemporaryDirectory() as tmpdir:
			
 
				+        tmp_path = Path(tmpdir)
			
 
				+
			
 
				+        for _ in range(BACKWARD_PASSES_BEFORE_SAVE):
			
 
				+            expert_backend.backward(batch, loss_grad)
			
 
				+
			
 
				+        store_experts(experts, tmp_path)
			
 
				 
			
 
				-        expert.weight.data[0] = 4
			
 
				+        for _ in range(BACKWARD_PASSES_AFTER_SAVE):
			
 
				+            expert_backend.backward(batch, loss_grad)
			
 
				 
			
 
				         load_weights(experts, tmp_path)
			
 
				-        assert expert.weight.data[0] == 3
			
 
				+        assert experts[expert_name].update_count == BACKWARD_PASSES_BEFORE_SAVE