4 years ago · 5a982ab0c5
--- a/hivemind/hivemind_cli/run_server.py
+++ b/hivemind/hivemind_cli/run_server.py
@@ -38,6 +38,13 @@ def main():
 
															                         help='Minimum required batch size for all expert operations')
														
 
															     parser.add_argument('--max_batch_size', type=int, default=16384,
														
 
															                         help='The total number of examples in the same batch will not exceed this value')
														
 
															+    parser.add_argument('--use_averaging', action='store_true', help='Whether to use decentralized parameter and '
														
 
															+                                                                     'gradient averaging by wrapping the optimizer '
														
 
															+                                                                     'with CollaborativeOptimizer')
														
 
															+    parser.add_argument('--averaging_target_batch_size', type=int, required=False,
														
 
															+                        help='Number of examples to accumulate across all peers before averaging')
														
 
															+    parser.add_argument('--averaging_target_group_size', type=int, required=False,
														
 
															+                        help='Target group size for decentralized averaging')
														
 
															     parser.add_argument('--device', type=str, default=None, required=False,
														
 
															                         help='all experts will use this device in torch notation; default: cuda if available else cpu')
														
--- a/hivemind/moe/server/__init__.py
+++ b/hivemind/moe/server/__init__.py
@@ -26,6 +26,7 @@ from hivemind.moe.server.layers import (
 
															     schedule_name_to_scheduler,
														
 
															 )
														
 
															 from hivemind.moe.server.runtime import Runtime
														
 
															+from hivemind.optim import CollaborativeOptimizer
														
 
															 from hivemind.proto.runtime_pb2 import CompressionType
														
 
															 from hivemind.utils import BatchTensorDescriptor, Endpoint, get_free_port, get_logger, get_port, replace_port
														
@@ -107,6 +108,9 @@ class Server(threading.Thread):
 
															         num_handlers=None,
														
 
															         min_batch_size=1,
														
 
															         max_batch_size=4096,
														
 
															+        use_averaging: bool = False,
														
 
															+        averaging_target_batch_size: Optional[int] = None,
														
 
															+        averaging_target_group_size: Optional[int] = None,
														
 
															         device=None,
														
 
															         no_dht=False,
														
 
															         initial_peers=(),
														
@@ -122,13 +126,17 @@ class Server(threading.Thread):
 
															         :param listen_on: network interface with address and (optional) port, e.g. "127.0.0.1:1337" or "[::]:80"
														
 
															         :param num_experts: run this many identical experts
														
 
															         :param expert_pattern: a string pattern or a list of expert uids,  example: myprefix.[0:32].[0:256]\
														
 
															-           means "sample random experts between myprefix.0.0 and myprefix.255.255;
														
 
															+            means "sample random experts between myprefix.0.0 and myprefix.255.255;
														
 
															         :param expert_uids: spawn experts with these exact uids, overrides num_experts and expert_pattern
														
 
															         :param expert_cls: expert type from hivemind.moe.server.layers, e.g. 'ffn' or 'transformer';
														
 
															         :param hidden_dim: main dimension for expert_cls
														
 
															         :param num_handlers: server will use this many parallel processes to handle incoming requests
														
 
															         :param min_batch_size: total num examples in the same batch will be greater than this value
														
 
															         :param max_batch_size: total num examples in the same batch will not exceed this value
														
 
															+        :param use_averaging: Whether to use decentralized parameter and gradient averaging by wrapping the optimizer
														
 
															+            with CollaborativeOptimizer
														
 
															+        :param averaging_target_batch_size: number of examples to accumulate across all peers before averaging
														
 
															+        :param averaging_target_group_size: target group size for decentralized averaging
														
 
															         :param device: all experts will use this device in torch notation; default: cuda if available else cpu
														
 
															         :param optim_cls: uses this optimizer to train all experts
														
@@ -184,7 +192,11 @@ class Server(threading.Thread):
 
															             uids_to_generate = num_experts - len(expert_uids)
														
 
															             if uids_to_generate > 0:
														
 
															                 logger.info(f"Generating {uids_to_generate} expert uids from pattern {expert_pattern}")
														
 
															-                expert_uids.extend(generate_uids_from_pattern(uids_to_generate, expert_pattern, dht))
														
 
															+                expert_uids.extend(
														
 
															+                    generate_uids_from_pattern(
														
 
															+                        uids_to_generate, expert_pattern, dht, remove_duplicates=not use_averaging
														
 
															+                    )
														
 
															+                )
														
 
															         num_experts = len(expert_uids)
														
 
															         num_handlers = num_handlers if num_handlers is not None else num_experts * 8
														
@@ -203,11 +215,27 @@ class Server(threading.Thread):
 
															         experts = {}
														
 
															         for expert_uid in expert_uids:
														
 
															             expert = name_to_block[expert_cls](hidden_dim)
														
 
															+
														
 
															+            optim = optim_cls(expert.parameters())
														
 
															+            if use_averaging:
														
 
															+                assert averaging_target_batch_size is not None
														
 
															+                assert averaging_target_group_size is not None
														
 
															+                optim = CollaborativeOptimizer(
														
 
															+                    optim,
														
 
															+                    dht=dht,
														
 
															+                    prefix=expert_uid.replace(".", ""),
														
 
															+                    compression_type=compression,
														
 
															+                    target_batch_size=averaging_target_batch_size,
														
 
															+                    target_group_size=averaging_target_group_size,
														
 
															+                    reuse_grad_buffers=True,
														
 
															+                    start=True,
														
 
															+                )
														
 
															+
														
 
															             experts[expert_uid] = hivemind.ExpertBackend(
														
 
															                 name=expert_uid,
														
 
															                 expert=expert,
														
 
															                 args_schema=args_schema,
														
 
															-                optimizer=optim_cls(expert.parameters()),
														
 
															+                optimizer=optim,
														
 
															                 scheduler=scheduler,
														
 
															                 num_warmup_steps=num_warmup_steps,
														
 
															                 num_total_steps=num_total_steps,
														
--- a/hivemind/moe/server/expert_backend.py
+++ b/hivemind/moe/server/expert_backend.py
@@ -3,6 +3,7 @@ from typing import Any, Callable, Dict, Sequence, Tuple, Union
 
															 import torch
														
 
															 from torch import nn
														
 
															+import hivemind
														
 
															 from hivemind.moe.server.task_pool import TaskPool
														
 
															 from hivemind.utils.logging import get_logger
														
 
															 from hivemind.utils.nested import nested_compare, nested_flatten, nested_map, nested_pack
														
@@ -176,12 +177,16 @@ class ExpertBackend:
 
															         if self.clip_grad_norm is not None:
														
 
															             torch.nn.utils.clip_grad_norm_(self.expert.parameters(), self.clip_grad_norm)
														
 
															-        self.optimizer.step()
														
 
															-        self.optimizer.zero_grad()
														
 
															+        if isinstance(self.optimizer, hivemind.CollaborativeOptimizer):
														
 
															+            self.optimizer.step(batch_size)
														
 
															+        else:
														
 
															+            self.optimizer.step()
														
 
															+            self.optimizer.zero_grad()
														
 
															-        if self.scheduler is not None:
														
 
															-            self.scheduler.step()
														
 
															+            if self.scheduler is not None:
														
 
															+                self.scheduler.step()
														
 
															+        # TODO update_count is not always incremented if CollaborativeOptimizer is used
														
 
															         self.update_count += 1
														
 
															         self.examples_processed += batch_size
														
--- a/hivemind/moe/server/expert_uid.py
+++ b/hivemind/moe/server/expert_uid.py
@@ -14,6 +14,8 @@ UID_DELIMITER = "."  # when declaring experts, DHT store all prefixes of that ex
 
															 FLAT_EXPERT = -1  # grid prefix reserved for storing 1d expert uids. Used to speed up find_best_experts in 1d case.
														
 
															 UID_PATTERN = re.compile("^(([^.])+)([.](?:[0]|([1-9]([0-9]*))))+$")  # e.g. ffn_expert.98.76.54 - prefix + some dims
														
 
															 PREFIX_PATTERN = re.compile("^(([^.])+)([.](?:[0]|([1-9]([0-9]*))))*[.]$")  # e.g. expert. or ffn.45. (ends with ".")
														
 
															+
														
 
															+
														
 
															 #  formally, prefixes = {uid.split(UID_DELIMITER)[:length] for length in range(1, uid.count(UID_DELIMITER) + 2)}
														
@@ -35,17 +37,23 @@ def split_uid(uid_or_prefix: Union[ExpertUID, ExpertPrefix]) -> Tuple[ExpertPref
 
															 def generate_uids_from_pattern(
														
 
															-    num_experts: int, expert_pattern: Optional[str], dht: Optional[DHT] = None, attempts_per_expert=10
														
 
															+    num_experts: int,
														
 
															+    expert_pattern: Optional[str],
														
 
															+    dht: Optional[DHT] = None,
														
 
															+    attempts_per_expert=10,
														
 
															+    remove_duplicates=True,
														
 
															 ) -> List[str]:
														
 
															     """
														
 
															-    Sample experts from a given pattern, remove duplicates.
														
 
															+    Sample experts from a given pattern, optionally remove duplicates.
														
 
															     :param num_experts: sample this many unique expert uids
														
 
															     :param expert_pattern: a string pattern or a list of expert uids,  example: myprefix.[0:32].[0:256]\
														
 
															-     means "sample random experts between myprefix.0.0 and myprefix.255.255;
														
 
															+        means "sample random experts between myprefix.0.0 and myprefix.255.255"
														
 
															     :param dht: if specified, uses this DHT to check that expert uids are not yet occupied by other peers
														
 
															+    :param dht: whether to exclude expert uids that are already present in the DHT
														
 
															+        (you may disable it if you want to have the same expert on multiple peers)
														
 
															     :param attempts_per_expert: give up if unable to generate a new expert uid after this many attempts per uid
														
 
															     :note: this method is not strictly process-safe. If several servers run it concurrently, they have
														
 
															-     a small chance of sampling duplicate expert uids.
														
 
															+        a small chance of sampling duplicate expert uids.
														
 
															     """
														
 
															     remaining_attempts = attempts_per_expert * num_experts
														
 
															     found_uids, attempted_uids = list(), set()
														
@@ -72,7 +80,7 @@ def generate_uids_from_pattern(
 
															     while remaining_attempts > 0 and len(found_uids) < num_experts:
														
 
															-        # 1. sample new expert uids at random
														
 
															+        # sample new expert uids at random
														
 
															         new_uids = []
														
 
															         while len(new_uids) + len(found_uids) < num_experts and remaining_attempts > 0:
														
 
															             new_uid = _generate_uid()
														
@@ -81,8 +89,7 @@ def generate_uids_from_pattern(
 
															                 attempted_uids.add(new_uid)
														
 
															                 new_uids.append(new_uid)
														
 
															-        # 2. look into DHT (if given) and remove duplicates
														
 
															-        if dht:
														
 
															+        if dht and remove_duplicates:
														
 
															             existing_expert_uids = {
														
 
															                 found_expert.uid
														
 
															                 for found_expert in hivemind.moe.server.get_experts(dht, new_uids)
														
--- a/hivemind/optim/collaborative.py
+++ b/hivemind/optim/collaborative.py
@@ -400,7 +400,10 @@ class CollaborativeOptimizer(DecentralizedOptimizerBase):
 
															         current_time = get_dht_time()
														
 
															         if not isinstance(response, dict) or len(response) == 0:
														
 
															-            logger.log(self.status_loglevel, f"Found no active peers: {response}")
														
 
															+            logger.log(
														
 
															+                self.status_loglevel,
														
 
															+                f"Collaboration {self.prefix} found no active peers {f': {response}' if response else ''}",
														
 
															+            )
														
 
															             local_eta_next_step = (
														
 
															                 max(0, self.target_batch_size - self.local_steps_accumulated) / self.performance_ema.samples_per_second
														
 
															             )