4 lat temu · d1d1627578
--- a/.circleci/config.yml
+++ b/.circleci/config.yml
@@ -1,70 +0,0 @@
 
															-version: 2.1
														
 
															-
														
 
															-jobs:
														
 
															-  build-and-test-py37:
														
 
															-    docker:
														
 
															-      - image: circleci/python:3.7.10
														
 
															-    steps:
														
 
															-      - checkout
														
 
															-      - restore_cache:
														
 
															-          keys:
														
 
															-            - py37-v1-{{ checksum "requirements.txt" }}-{{ checksum "requirements-dev.txt" }}
														
 
															-      - run: pip install -r requirements.txt
														
 
															-      - run: pip install -r requirements-dev.txt
														
 
															-      - save_cache:
														
 
															-          key: py37-v1-{{ checksum "requirements.txt" }}-{{ checksum "requirements-dev.txt" }}
														
 
															-          paths:
														
 
															-            - '~/.cache/pip'
														
 
															-      - run:
														
 
															-          command: pip install -e .
														
 
															-          name: setup
														
 
															-      - run:
														
 
															-          command: pytest ./tests
														
 
															-          name: tests
														
 
															-  build-and-test-py38:
														
 
															-    docker:
														
 
															-      - image: circleci/python:3.8.1
														
 
															-    steps:
														
 
															-      - checkout
														
 
															-      - restore_cache:
														
 
															-          keys:
														
 
															-            - py38-v1-{{ checksum "requirements.txt" }}-{{ checksum "requirements-dev.txt" }}
														
 
															-      - run: pip install -r requirements.txt
														
 
															-      - run: pip install -r requirements-dev.txt
														
 
															-      - save_cache:
														
 
															-          key: py38-v1-{{ checksum "requirements.txt" }}-{{ checksum "requirements-dev.txt" }}
														
 
															-          paths:
														
 
															-            - '~/.cache/pip'
														
 
															-      - run:
														
 
															-          command: pip install -e .
														
 
															-          name: setup
														
 
															-      - run:
														
 
															-          command: pytest ./tests
														
 
															-          name: tests
														
 
															-  build-and-test-py39:
														
 
															-    docker:
														
 
															-      - image: circleci/python:3.9.1
														
 
															-    steps:
														
 
															-      - checkout
														
 
															-      - restore_cache:
														
 
															-          keys:
														
 
															-            - py39-v1-{{ checksum "requirements.txt" }}-{{ checksum "requirements-dev.txt" }}
														
 
															-      - run: pip install -r requirements.txt
														
 
															-      - run: pip install -r requirements-dev.txt
														
 
															-      - save_cache:
														
 
															-          key: py39-v1-{{ checksum "requirements.txt" }}-{{ checksum "requirements-dev.txt" }}
														
 
															-          paths:
														
 
															-            - '~/.cache/pip'
														
 
															-      - run:
														
 
															-          command: pip install -e .
														
 
															-          name: setup
														
 
															-      - run:
														
 
															-          command: pytest ./tests
														
 
															-          name: tests
														
 
															-
														
 
															-workflows:
														
 
															-  main:
														
 
															-    jobs:
														
 
															-      - build-and-test-py37
														
 
															-      - build-and-test-py38
														
 
															-      - build-and-test-py39
														
--- a/.github/workflows/run-tests.yml
+++ b/.github/workflows/run-tests.yml
@@ -0,0 +1,92 @@
 
															+name: Tests
														
 
															+
														
 
															+on: [ push ]
														
 
															+
														
 
															+
														
 
															+jobs:
														
 
															+  run_tests:
														
 
															+
														
 
															+    runs-on: ubuntu-latest
														
 
															+    strategy:
														
 
															+      matrix:
														
 
															+        python-version: [ 3.7, 3.8, 3.9 ]
														
 
															+    timeout-minutes: 10
														
 
															+    steps:
														
 
															+      - uses: actions/checkout@v2
														
 
															+      - name: Set up Python
														
 
															+        uses: actions/setup-python@v2
														
 
															+        with:
														
 
															+          python-version: ${{ matrix.python-version }}
														
 
															+      - name: Cache dependencies
														
 
															+        uses: actions/cache@v2
														
 
															+        with:
														
 
															+          path: ~/.cache/pip
														
 
															+          key: Key-v1-${{ matrix.python-version }}-${{ hashFiles('requirements.txt') }}-${{ hashFiles('requirements-dev.txt') }}
														
 
															+      - name: Install dependencies
														
 
															+        run: |
														
 
															+          python -m pip install --upgrade pip
														
 
															+          pip install -r requirements.txt
														
 
															+          pip install -r requirements-dev.txt
														
 
															+      - name: Build hivemind
														
 
															+        run: |
														
 
															+          pip install .
														
 
															+      - name: Test
														
 
															+        run: |
														
 
															+          cd tests
														
 
															+          pytest --durations=0 --durations-min=1.0
														
 
															+
														
 
															+  build_and_test_p2pd:
														
 
															+    runs-on: ubuntu-latest
														
 
															+    timeout-minutes: 10
														
 
															+    steps:
														
 
															+      - uses: actions/checkout@v2
														
 
															+      - name: Set up Python
														
 
															+        uses: actions/setup-python@v2
														
 
															+        with:
														
 
															+          python-version: '3.8'
														
 
															+      - name: Cache dependencies
														
 
															+        uses: actions/cache@v2
														
 
															+        with:
														
 
															+          path: ~/.cache/pip
														
 
															+          key: Key-v1-3.8-${{ hashFiles('requirements.txt') }}-${{ hashFiles('requirements-dev.txt') }}
														
 
															+      - name: Install dependencies
														
 
															+        run: |
														
 
															+          python -m pip install --upgrade pip
														
 
															+          pip install -r requirements.txt
														
 
															+          pip install -r requirements-dev.txt
														
 
															+      - name: Build hivemind
														
 
															+        run: |
														
 
															+          pip install . --global-option=build_py --global-option="--buildgo"
														
 
															+      - name: Test
														
 
															+        run: |
														
 
															+          cd tests
														
 
															+          pytest -k "p2p" 
														
 
															+
														
 
															+  codecov_in_develop_mode:
														
 
															+
														
 
															+    runs-on: ubuntu-latest
														
 
															+    timeout-minutes: 10
														
 
															+    steps:
														
 
															+      - uses: actions/checkout@v2
														
 
															+      - name: Set up Python
														
 
															+        uses: actions/setup-python@v2
														
 
															+        with:
														
 
															+          python-version: '3.8'
														
 
															+      - name: Cache dependencies
														
 
															+        uses: actions/cache@v2
														
 
															+        with:
														
 
															+          path: ~/.cache/pip
														
 
															+          key: Key-v1-3.8-${{ hashFiles('requirements.txt') }}-${{ hashFiles('requirements-dev.txt') }}
														
 
															+      - name: Install dependencies
														
 
															+        run: |
														
 
															+          python -m pip install --upgrade pip
														
 
															+          pip install -r requirements.txt
														
 
															+          pip install -r requirements-dev.txt
														
 
															+      - name: Build hivemind
														
 
															+        run: |
														
 
															+          pip install -e .
														
 
															+      - name: Test
														
 
															+        run: |
														
 
															+          pytest --cov=hivemind tests
														
 
															+      - name: Upload coverage to Codecov
														
 
															+        uses: codecov/codecov-action@v1
														
--- a/.gitignore
+++ b/.gitignore
@@ -78,3 +78,6 @@ debian/files
 
															 # protobuf stuff
														
 
															 hivemind/proto/*_pb2*
														
 
															+
														
 
															+# libp2p-daemon binary
														
 
															+hivemind/hivemind_cli/p2pd
														
--- a/README.md
+++ b/README.md
@@ -1,6 +1,6 @@
 
															 ## Hivemind: decentralized deep learning in PyTorch
														
 
															-[![Build status](https://circleci.com/gh/learning-at-home/hivemind.svg?style=shield)](https://circleci.com/gh/learning-at-home/hivemind)
														
 
															+[![CI status](https://github.com/learning-at-home/hivemind/actions/workflows/run-tests.yml/badge.svg?branch=master)](https://github.com/learning-at-home/hivemind/actions)
														
 
															 [![Documentation Status](https://readthedocs.org/projects/learning-at-home/badge/?version=latest)](https://learning-at-home.readthedocs.io/en/latest/?badge=latest)
														
 
															 [![Gitter](https://badges.gitter.im/learning-at-home/hivemind.svg)](https://gitter.im/learning-at-home/hivemind?utm_source=badge&utm_medium=badge&utm_campaign=pr-badge)
														
@@ -76,8 +76,18 @@ our [guide](https://learning-at-home.readthedocs.io/en/latest/user/contributing.
 
															 ## Citation
														
 
															-If you found hivemind useful for your experiments, you can cite [the paper](https://arxiv.org/abs/2002.04013) that
														
 
															-inspired it:
														
 
															+If you found hivemind or its underlying algorithms useful for your experiments, please cite the following source:
														
 
															+
														
 
															+```
														
 
															+@misc{hivemind,
														
 
															+  author = {Learning@home team},
														
 
															+  title = {{H}ivemind: a {L}ibrary for {D}ecentralized {D}eep {L}earning},
														
 
															+  year = 2020,
														
 
															+  howpublished = {\url{https://github.com/learning-at-home/hivemind}},
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+Also, you can cite [the paper](https://arxiv.org/abs/2002.04013) that inspired the creation of this library:
														
 
															 ```
														
 
															 @inproceedings{ryabinin2020crowdsourced,
														
--- a/benchmarks/benchmark_averaging.py
+++ b/benchmarks/benchmark_averaging.py
@@ -6,10 +6,13 @@ import argparse
 
															 import torch
														
 
															 import hivemind
														
 
															-from hivemind.utils import LOCALHOST, increase_file_limit
														
 
															+from hivemind.utils import LOCALHOST, increase_file_limit, get_logger
														
 
															 from hivemind.proto import runtime_pb2
														
 
															+logger = get_logger(__name__)
														
 
															+
														
 
															+
														
 
															 def sample_tensors(hid_size, num_layers):
														
 
															     tensors = []
														
 
															     for i in range(num_layers):
														
@@ -38,8 +41,11 @@ def benchmark_averaging(num_peers: int, target_group_size: int, num_rounds: int,
 
															     peer_tensors = [sample_tensors(hid_size, num_layers)
														
 
															                     for _ in range(num_peers)]
														
 
															     processes = {dht_root}
														
 
															+    lock_stats = threading.Lock()
														
 
															+    successful_steps = total_steps = 0
														
 
															     def run_averager(index):
														
 
															+        nonlocal successful_steps, total_steps, lock_stats
														
 
															         dht = hivemind.DHT(listen_on=f'{LOCALHOST}:*',
														
 
															                            initial_peers=[f"{LOCALHOST}:{dht_root.port}"],
														
 
															                            start=True)
														
@@ -50,11 +56,17 @@ def benchmark_averaging(num_peers: int, target_group_size: int, num_rounds: int,
 
															             averaging_expiration=averaging_expiration, request_timeout=request_timeout, start=True)
														
 
															         processes.update({dht, averager})
														
 
															-        print(end=f'<started {index}>\n', flush=True)
														
 
															-        for _ in range(num_rounds):
														
 
															-            success = averager.step(timeout=round_timeout)
														
 
															-            print(end=('+' if success else '-'), flush=True)
														
 
															-        print(end=f'<finished {index}>\n', flush=True)
														
 
															+        logger.info(f'Averager {index}: started on endpoint {averager.endpoint}, group_bits: {averager.get_group_bits()}')
														
 
															+        for step in range(num_rounds):
														
 
															+            try:
														
 
															+                success = averager.step(timeout=round_timeout) is not None
														
 
															+            except:
														
 
															+                success = False
														
 
															+            with lock_stats:
														
 
															+                successful_steps += int(success)
														
 
															+                total_steps += 1
														
 
															+            logger.info(f"Averager {index}: {'finished' if success else 'failed'} step {step}")
														
 
															+        logger.info(f"Averager {index}: done.")
														
 
															     threads = []
														
 
															     for i in range(num_peers):
														
@@ -67,10 +79,8 @@ def benchmark_averaging(num_peers: int, target_group_size: int, num_rounds: int,
 
															     for thread in threads:
														
 
															         thread.join()
														
 
															-    print(f"\ntest run took {time.time() - t:.3f} seconds")
														
 
															-
														
 
															-    for process in processes:
														
 
															-        process.terminate()
														
 
															+    logger.info(f"Benchmark finished in {time.time() - t:.3f} seconds.")
														
 
															+    logger.info(f"Success rate: {successful_steps / total_steps} ({successful_steps} out of {total_steps} attempts)")
														
 
															 if __name__ == "__main__":
														
@@ -80,9 +90,9 @@ if __name__ == "__main__":
 
															     parser.add_argument('--num_rounds', type=int, default=5, required=False)
														
 
															     parser.add_argument('--hid_size', type=int, default=256, required=False)
														
 
															     parser.add_argument('--num_layers', type=int, default=3, required=False)
														
 
															-    parser.add_argument('--averaging_expiration', type=float, default=15, required=False)
														
 
															-    parser.add_argument('--round_timeout', type=float, default=30, required=False)
														
 
															-    parser.add_argument('--request_timeout', type=float, default=3, required=False)
														
 
															+    parser.add_argument('--averaging_expiration', type=float, default=5, required=False)
														
 
															+    parser.add_argument('--round_timeout', type=float, default=15, required=False)
														
 
															+    parser.add_argument('--request_timeout', type=float, default=1, required=False)
														
 
															     parser.add_argument('--spawn_dtime', type=float, default=0.1, required=False)
														
 
															     parser.add_argument('--increase_file_limit', action="store_true")
														
 
															     args = vars(parser.parse_args())
														
--- a/benchmarks/benchmark_dht.py
+++ b/benchmarks/benchmark_dht.py
@@ -20,7 +20,7 @@ def benchmark_dht(num_peers: int, initial_peers: int, num_experts: int, expert_b
 
															                   wait_after_request: float, wait_before_read: float, wait_timeout: float, expiration: float):
														
 
															     random.seed(random_seed)
														
 
															-    print("Creating peers...")
														
 
															+    logger.info("Creating peers...")
														
 
															     peers = []
														
 
															     for _ in trange(num_peers):
														
 
															         neighbors = [f'0.0.0.0:{node.port}' for node in random.sample(peers, min(initial_peers, len(peers)))]
														
@@ -32,10 +32,10 @@ def benchmark_dht(num_peers: int, initial_peers: int, num_experts: int, expert_b
 
															     expert_uids = list(set(f"expert.{random.randint(0, 999)}.{random.randint(0, 999)}.{random.randint(0, 999)}"
														
 
															                            for _ in range(num_experts)))
														
 
															-    print(f"Sampled {len(expert_uids)} unique ids (after deduplication)")
														
 
															+    logger.info(f"Sampled {len(expert_uids)} unique ids (after deduplication)")
														
 
															     random.shuffle(expert_uids)
														
 
															-    print(f"Storing experts to dht in batches of {expert_batch_size}...")
														
 
															+    logger.info(f"Storing experts to dht in batches of {expert_batch_size}...")
														
 
															     successful_stores = total_stores = total_store_time = 0
														
 
															     benchmark_started = time.perf_counter()
														
 
															     endpoints = []
														
@@ -52,8 +52,8 @@ def benchmark_dht(num_peers: int, initial_peers: int, num_experts: int, expert_b
 
															         successful_stores += sum(successes)
														
 
															         time.sleep(wait_after_request)
														
 
															-    print(f"Store success rate: {successful_stores / total_stores * 100:.1f}% ({successful_stores} / {total_stores})")
														
 
															-    print(f"Mean store time: {total_store_time / total_stores:.5}, Total: {total_store_time:.5}")
														
 
															+    logger.info(f"Store success rate: {successful_stores / total_stores * 100:.1f}% ({successful_stores} / {total_stores})")
														
 
															+    logger.info(f"Mean store time: {total_store_time / total_stores:.5}, Total: {total_store_time:.5}")
														
 
															     time.sleep(wait_before_read)
														
 
															     if time.perf_counter() - benchmark_started > expiration:
														
@@ -74,11 +74,11 @@ def benchmark_dht(num_peers: int, initial_peers: int, num_experts: int, expert_b
 
															     if time.perf_counter() - benchmark_started > expiration:
														
 
															         logger.warning("keys expired midway during get requests. If that isn't desired, increase expiration_time param")
														
 
															-    print(f"Get success rate: {successful_gets / len(expert_uids) * 100:.1f} ({successful_gets} / {len(expert_uids)})")
														
 
															-    print(f"Mean get time: {total_get_time / len(expert_uids):.5f}, Total: {total_get_time:.5f}")
														
 
															+    logger.info(f"Get success rate: {successful_gets / len(expert_uids) * 100:.1f} ({successful_gets} / {len(expert_uids)})")
														
 
															+    logger.info(f"Mean get time: {total_get_time / len(expert_uids):.5f}, Total: {total_get_time:.5f}")
														
 
															     alive_peers = [peer.is_alive() for peer in peers]
														
 
															-    print(f"Node survival rate: {len(alive_peers) / len(peers) * 100:.3f}%")
														
 
															+    logger.info(f"Node survival rate: {len(alive_peers) / len(peers) * 100:.3f}%")
														
 
															 if __name__ == "__main__":
														
--- a/benchmarks/benchmark_tensor_compression.py
+++ b/benchmarks/benchmark_tensor_compression.py
@@ -5,6 +5,10 @@ import torch
 
															 from hivemind.proto.runtime_pb2 import CompressionType
														
 
															 from hivemind.utils.compression import serialize_torch_tensor, deserialize_torch_tensor
														
 
															+from hivemind.utils.logging import get_logger
														
 
															+
														
 
															+
														
 
															+logger = get_logger(__name__)
														
 
															 def benchmark_compression(tensor: torch.Tensor, compression_type: CompressionType) -> float:
														
@@ -29,4 +33,4 @@ if __name__ == "__main__":
 
															         for i in range(args.num_iters):
														
 
															             tm += benchmark_compression(X, compression_type)
														
 
															         tm /= args.num_iters
														
 
															-        print(f"Compression type: {name}, time: {tm}")
														
 
															+        logger.info(f"Compression type: {name}, time: {tm}")
														
--- a/benchmarks/benchmark_throughput.py
+++ b/benchmarks/benchmark_throughput.py
@@ -10,19 +10,23 @@ import hivemind
 
															 from hivemind import find_open_port
														
 
															 from hivemind.server import layers
														
 
															 from hivemind.utils.threading import increase_file_limit
														
 
															+from hivemind.utils.logging import get_logger
														
 
															+
														
 
															+
														
 
															+logger = get_logger(__name__)
														
 
															 def print_device_info(device=None):
														
 
															     """Prints device stats. Code from https://stackoverflow.com/a/53374933/12891528"""
														
 
															     device = torch.device(device or ('cuda' if torch.cuda.is_available() else 'cpu'))
														
 
															-    print('Using device:', device)
														
 
															+    logger.info(f'Using device: {device}')
														
 
															     # Additional Info when using cuda
														
 
															     if device.type == 'cuda':
														
 
															-        print(torch.cuda.get_device_name(0))
														
 
															-        print('Memory Usage:')
														
 
															-        print('Allocated:', round(torch.cuda.memory_allocated(0) / 1024 ** 3, 1), 'GB')
														
 
															-        print('Cached:   ', round(torch.cuda.memory_cached(0) / 1024 ** 3, 1), 'GB')
														
 
															+        logger.info(torch.cuda.get_device_name(0))
														
 
															+        logger.info(f'Memory Usage:')
														
 
															+        logger.info(f'Allocated: {round(torch.cuda.memory_allocated(0) / 1024 ** 3, 1)} GB')
														
 
															+        logger.info(f'Cached:   {round(torch.cuda.memory_cached(0) / 1024 ** 3, 1)} GB')
														
 
															 def client_process(can_start, benchmarking_failed, port, num_experts, batch_size, hid_dim, num_batches, backprop=True):
														
@@ -111,25 +115,25 @@ def benchmark_throughput(num_experts=16, num_handlers=None, num_clients=128, num
 
															         abs(timestamps[key2] - timestamps[key1]) if (key1 in timestamps and key2 in timestamps) else float('nan')
														
 
															     total_examples = batch_size * num_clients * num_batches_per_client
														
 
															-    print('\n' * 3)
														
 
															-    print("Benchmark finished, status:" + ["Success", "Failure"][benchmarking_failed.is_set()])
														
 
															-    print(f"Server parameters: num_experts={num_experts}, num_handlers={num_handlers}, max_batch_size={max_batch_size},"
														
 
															+    logger.info("Benchmark finished, status:" + ["Success", "Failure"][benchmarking_failed.is_set()])
														
 
															+    logger.info(f"Server parameters: num_experts={num_experts}, num_handlers={num_handlers}, max_batch_size={max_batch_size},"
														
 
															           f" expert_cls={expert_cls}, hid_dim={hid_dim}, device={device}")
														
 
															-    print(f"Client parameters: num_clients={num_clients}, num_batches_per_client={num_batches_per_client}, "
														
 
															+    logger.info(f"Client parameters: num_clients={num_clients}, num_batches_per_client={num_batches_per_client}, "
														
 
															           f"batch_size={batch_size}, backprop={backprop}")
														
 
															-    print("Results: ")
														
 
															-    print(f"\tServer startup took {time_between('began_launching_server', 'server_ready') :.3f} s. "
														
 
															+    logger.info("Results: ")
														
 
															+    logger.info(f"\tServer startup took {time_between('began_launching_server', 'server_ready') :.3f} s. "
														
 
															           f"({time_between('began_launching_server', 'created_experts') :.3f} s. experts + "
														
 
															           f"{time_between('created_experts', 'server_ready') :.3f} s. networking)")
														
 
															-    print(f"\tProcessed {total_examples} examples in {time_between('server_ready', 'clients_finished') :.3f}")
														
 
															-    print(f"\tThroughput for {'forward + backward' if backprop else 'forward'} passes: "
														
 
															+    logger.info(f"\tProcessed {total_examples} examples in {time_between('server_ready', 'clients_finished') :.3f}")
														
 
															+    logger.info(f"\tThroughput for {'forward + backward' if backprop else 'forward'} passes: "
														
 
															           f"{total_examples / time_between('server_ready', 'clients_finished') :.3f} samples / s.")
														
 
															-    print(f"\tBenchmarking took {time_between('started', 'server_shutdown_finished') :.3f} s.")
														
 
															+    logger.info(f"\tBenchmarking took {time_between('started', 'server_shutdown_finished') :.3f} s.")
														
 
															     if benchmarking_failed.is_set():
														
 
															-        print("Note: benchmark code failed, timing/memory results only indicate time till failure!")
														
 
															+        logger.info("Note: benchmark code failed, timing/memory results only indicate time till failure!")
														
 
															     print_device_info(device)
														
 
															-    print(flush=True)
														
 
															+    sys.stdout.flush()
														
 
															+    sys.stderr.flush()
														
 
															     assert not benchmarking_failed.is_set()
														
--- a/codecov.yml
+++ b/codecov.yml
@@ -0,0 +1,12 @@
 
															+comment:
														
 
															+  layout: "diff, files"
														
 
															+  behavior: default
														
 
															+  require_changes: true
														
 
															+coverage:
														
 
															+  status:
														
 
															+    patch:
														
 
															+      default:
														
 
															+        informational: true
														
 
															+    project:
														
 
															+      default:
														
 
															+        threshold: 1%
														
--- a/docs/modules/client.rst
+++ b/docs/modules/client.rst
@@ -25,4 +25,4 @@
 
															 .. autoclass:: DecentralizedAverager
														
 
															    :members:
														
 
															    :member-order: bysource
														
 
															-   :exclude-members: get_tensors, get_tensors_async, update_tensors, rpc_join_group, rpc_aggregate_part
														
 
															+   :exclude-members: get_tensors, get_tensors_async, update_tensors, rpc_join_group, rpc_aggregate_part, register_allreduce_group
														
--- a/examples/albert/README.md
+++ b/examples/albert/README.md
@@ -12,21 +12,24 @@ This tutorial will walk you through the steps to set up collaborative training w
 
															 ## Running an experiment
														
 
															 - Run the first DHT peer to welcome trainers and record training statistics (e.g. loss, performance):
														
 
															    - In this example, we use [wandb.ai](https://wandb.ai/site) to plot training metrics; If you're unfamiliar with Weights & Biases, here's a [quickstart tutorial](https://docs.wandb.ai/quickstart).
														
 
															-   - Run `python run_first_peer.py --listen_on '[::]:*' --experiment_prefix NAME_YOUR_EXPERIMENT --wandb_project WANDB_PROJECT_HERE`
														
 
															+   - Run `python run_first_peer.py --dht_listen_on '[::]:*' --experiment_prefix NAME_YOUR_EXPERIMENT --wandb_project WANDB_PROJECT_HERE`
														
 
															    - `NAME_YOUR_EXPERIMENT` must be a unique name of this training run, e.g. `my-first-albert`. It cannot contain `.` due to naming conventions.
														
 
															    - `WANDB_PROJECT_HERE` is a name of wandb project used to track training metrics. Multiple experiments can have the same project name.
														
 
															    - This peer will run a DHT node on a certain IP/port (`Running DHT root at ...`). You will need this address for next steps
														
 
															 ```
														
 
															-+ python ./run_first_peer.py --listen_on '[::]:31209' --experiment_prefix ysda_albert_v10 --wandb_project Demo-run
														
 
															-[2021/04/19 02:30:06.051][WARN][root.<module>:36] No address specified. Attempting to infer address from DNS.
														
 
															-[2021/04/19 02:30:06.088][INFO][root.<module>:44] Running DHT root at 18.217.13.97:31209
														
 
															-wandb: Currently logged in as: ??? (use `wandb login --relogin` to force relogin)
														
 
															-wandb: Tracking run with wandb version 0.10.26
														
 
															-wandb: Syncing run wandering-sky-58
														
 
															-wandb: ⭐ View project at https://wandb.ai/yhn112/Demo-run
														
 
															-wandb: 🚀 View run at https://wandb.ai/yhn112/Demo-run/runs/38ygvt3n
														
 
															-wandb: Run data is saved locally in /home/hivemind/examples/albert/wandb/run-20210419_023006-38ygvt3n
														
 
															++ python run_first_peer.py --dht_listen_on '[::]:*' --experiment_prefix my-albert-v1 --wandb_project Demo-run
														
 
															+[2021/06/17 16:26:35.931][WARN][root.<module>:140] No address specified. Attempting to infer address from DNS.
														
 
															+[2021/06/17 16:26:36.083][INFO][root.<module>:149] Running DHT root at 193.106.95.184:38319
														
 
															+wandb: Currently logged in as: XXX (use `wandb login --relogin` to force relogin)
														
 
															+wandb: Tracking run with wandb version 0.10.32
														
 
															+wandb: Syncing run dry-mountain-2
														
 
															+wandb:  View project at https://wandb.ai/XXX/Demo-run
														
 
															+wandb:  View run at https://wandb.ai/XXX/Demo-run/runs/YYY
														
 
															+wandb: Run data is saved locally in /path/to/run/data
														
 
															 wandb: Run `wandb offline` to turn off syncing.
														
 
															+[2021/04/19 02:26:41.064][INFO][optim.collaborative.fetch_collaboration_state:323] Found no active peers: None
														
 
															+[2021/04/19 02:26:44.068][INFO][optim.collaborative.fetch_collaboration_state:323] Found no active peers: None
														
 
															+...
														
 
															 [2021/04/19 02:37:37.246][INFO][root.<module>:74] 11.05164
														
 
															 [2021/04/19 02:39:37.441][INFO][root.<module>:74] 11.03771
														
 
															 [2021/04/19 02:40:37.541][INFO][root.<module>:74] 11.02886
														
@@ -37,7 +40,7 @@ wandb: Run `wandb offline` to turn off syncing.
 
															   - if necessary, specify paths: `--dataset_path ./path/to/unpacked/data --tokenizer ./path/to/tokenizer/config` (see [default paths](https://github.com/learning-at-home/hivemind/blob/collaborative_albert_example/examples/albert/run_trainer.py#L63-L69) for reference)
														
 
															   - run:
														
 
															 ```shell
														
 
															- CUDA_VISIBLE_DEVICES=0 HIVEMIND_THREADS=64 python ./hivemind/examples/albert/run_trainer.py \
														
 
															+HIVEMIND_THREADS=64 python run_trainer.py \
														
 
															  --experiment_prefix SAME_AS_IN_RUN_FIRST_PEER --initial_peers ONE_OR_MORE_PEERS --seed 42 \
														
 
															  --logging_first_step --logging_steps 100  --output_dir ./outputs --overwrite_output_dir --logging_dir ./logs
														
 
															 ```
														
@@ -45,11 +48,14 @@ Here, `ONE_OR_MORE_PEERS` stands for either your coordinator endpoint (e.g. `123
 
															 As the peer begins training, it will periodically report training logs in the following form:
														
 
															 ```
														
 
															-{'loss': 4.3577, 'learning_rate': 0.001318944, 'epoch': 0.0}
														
 
															 [...][INFO][...] Collaboration accumulated 448 samples from 17 peers; ETA 18.88 seconds (refresh in 15.73s.)
														
 
															 [...][INFO][...] Collaboration accumulated 4096 samples from 16 peers; ETA 0.00 seconds (refresh in 0.50s.)
														
 
															 [...][INFO][optim.collaborative.step:195] Averaged tensors successfully with 17 peers
														
 
															 [...][INFO][optim.collaborative.step:211] Optimizer step: done!
														
 
															+06/17/2021 18:58:23 - INFO - __main__ -   Step 0
														
 
															+06/17/2021 18:58:23 - INFO - __main__ -   Your current contribution: 892 samples
														
 
															+06/17/2021 18:58:23 - INFO - __main__ -   Local loss: 11.023
														
 
															+
														
 
															 ```
														
 
															 __Sanity check:__ a healthy peer will periodically report `Averaged tensors successfully with [N > 1]` peers.
														
--- a/examples/albert/run_first_peer.py
+++ b/examples/albert/run_first_peer.py
@@ -17,7 +17,6 @@ import hivemind
 
															 from hivemind.utils.logging import get_logger
														
 
															 import metrics_utils
														
 
															-
														
 
															 logger = get_logger(__name__)
														
@@ -163,6 +162,10 @@ if __name__ == '__main__':
 
															                        for peer in metrics_dict]
														
 
															             latest_step = max(item.step for item in metrics)
														
 
															             if latest_step != current_step:
														
 
															+                logger.debug(f"Got metrics from {len(metrics)} peers")
														
 
															+
														
 
															+                for i, metrics_for_peer in enumerate(metrics):
														
 
															+                    logger.debug(f"{i} peer {metrics_for_peer}")
														
 
															                 current_step = latest_step
														
 
															                 alive_peers = 0
														
 
															                 num_batches = 0
														
@@ -176,17 +179,20 @@ if __name__ == '__main__':
 
															                     sum_perf += item.samples_per_second
														
 
															                     num_samples += item.samples_accumulated
														
 
															                     sum_mini_steps += item.mini_steps
														
 
															+                current_loss = sum_loss / sum_mini_steps
														
 
															+
														
 
															                 if coordinator_args.wandb_project is not None:
														
 
															                     wandb.log({
														
 
															-                        "loss": sum_loss / sum_mini_steps,
														
 
															+                        "loss": current_loss,
														
 
															                         "alive peers": alive_peers,
														
 
															                         "samples": num_samples,
														
 
															-                        "performance": sum_perf
														
 
															+                        "performance": sum_perf,
														
 
															+                        "step": latest_step
														
 
															                     })
														
 
															                 if checkpoint_handler.is_time_to_save_state(current_step):
														
 
															                     checkpoint_handler.save_state(current_step)
														
 
															                     if checkpoint_handler.is_time_to_upload():
														
 
															-                        checkpoint_handler.upload_checkpoint(sum_loss / sum_mini_steps)
														
 
															-                logger.info(f"Step #{current_step}\tloss = {sum_loss / alive_peers:.5f}")
														
 
															+                        checkpoint_handler.upload_checkpoint(current_loss)
														
 
															+                logger.info(f"Step #{current_step}\tloss = {current_loss:.5f}")
														
 
															         logger.debug("Peer is still alive...")
														
 
															         time.sleep(coordinator_args.refresh_period)
														
--- a/examples/albert/run_trainer.py
+++ b/examples/albert/run_trainer.py
@@ -112,7 +112,7 @@ class CollaborativeCallback(transformers.TrainerCallback):
 
															     def on_train_begin(self, args: TrainingArguments, state: transformers.TrainerState,
														
 
															                        control: transformers.TrainerControl, **kwargs):
														
 
															-        logger.warning('Loading state from peers')
														
 
															+        logger.info('Loading state from peers')
														
 
															         self.collaborative_optimizer.load_state_from_peers()
														
 
															     def on_step_end(self, args: TrainingArguments, state: transformers.TrainerState,
														
@@ -139,14 +139,15 @@ class CollaborativeCallback(transformers.TrainerCallback):
 
															                 logger.info(f"Step {self.collaborative_optimizer.local_step}")
														
 
															                 logger.info(f"Your current contribution: {self.total_samples_processed} samples")
														
 
															                 if self.steps:
														
 
															-                    logger.info(f"Loss of your model: {self.loss/self.steps}")
														
 
															+                    logger.info(f"Local loss: {self.loss / self.steps}")
														
 
															                 self.loss = 0
														
 
															                 self.steps = 0
														
 
															-                self.dht.store(key=self.collaborative_optimizer.prefix + "_metrics",
														
 
															-                               subkey=self.local_public_key, value=statistics.dict(),
														
 
															-                               expiration_time=hivemind.get_dht_time() + self.statistics_expiration,
														
 
															-                               return_future=True)
														
 
															+                if self.collaborative_optimizer.is_synchronized:
														
 
															+                    self.dht.store(key=self.collaborative_optimizer.prefix + "_metrics",
														
 
															+                                   subkey=self.local_public_key, value=statistics.dict(),
														
 
															+                                   expiration_time=hivemind.get_dht_time() + self.statistics_expiration,
														
 
															+                                   return_future=True)
														
 
															         self.samples = self.collaborative_optimizer.local_samples_accumulated
														
--- a/examples/albert/tokenize_wikitext103.py
+++ b/examples/albert/tokenize_wikitext103.py
@@ -1,7 +1,6 @@
 
															 #!/usr/bin/env python
														
 
															 """ This script builds a pre-tokenized compressed representation of wikitext103 using huggingface/datasets """
														
 
															 import random
														
 
															-from collections import defaultdict
														
 
															 from functools import partial
														
 
															 from multiprocessing import cpu_count
														
@@ -10,6 +9,9 @@ from datasets import load_dataset
 
															 from transformers import AlbertTokenizerFast
														
 
															+COLUMN_NAMES = ('attention_mask', 'input_ids', 'sentence_order_label', 'special_tokens_mask', 'token_type_ids')
														
 
															+
														
 
															+
														
 
															 def create_instances_from_document(tokenizer, document, max_seq_length):
														
 
															     """Creates `TrainingInstance`s for a single document."""
														
 
															     # We DON'T just concatenate all of the tokens from a document into a long
														
@@ -76,14 +78,14 @@ def tokenize_function(tokenizer, examples):
 
															     # Remove empty texts
														
 
															     texts = (text for text in examples["text"] if len(text) > 0 and not text.isspace())
														
 
															-    new_examples = defaultdict(list)
														
 
															+    new_examples = {col: [] for col in COLUMN_NAMES}
														
 
															     for text in texts:
														
 
															         instances = create_instances_from_document(tokenizer, text, max_seq_length=512)
														
 
															         for instance in instances:
														
 
															             for key, value in instance.items():
														
 
															                 new_examples[key].append(value)
														
 
															-
														
 
															+    
														
 
															     return new_examples
														
@@ -96,7 +98,7 @@ if __name__ == '__main__':
 
															     tokenized_datasets = wikitext.map(
														
 
															         partial(tokenize_function, tokenizer),
														
 
															         batched=True,
														
 
															-        num_proc=cpu_count(),
														
 
															+        num_proc=8,
														
 
															         remove_columns=["text"],
														
 
															     )
														
--- a/hivemind/__init__.py
+++ b/hivemind/__init__.py
@@ -1,7 +1,8 @@
 
															 from hivemind.client import *
														
 
															 from hivemind.dht import *
														
 
															+from hivemind.p2p import *
														
 
															 from hivemind.server import *
														
 
															 from hivemind.utils import *
														
 
															 from hivemind.optim import *
														
 
															-__version__ = '0.9.8'
														
 
															+__version__ = "0.9.10"
														
--- a/hivemind/client/averaging/__init__.py
+++ b/hivemind/client/averaging/__init__.py
@@ -20,7 +20,8 @@ import torch
 
															 import numpy as np
														
 
															 from hivemind.dht import DHT, DHTID
														
 
															-from hivemind.client.averaging.allreduce import AllReduceRunner, AllreduceException, GroupID, split_into_parts
														
 
															+from hivemind.client.averaging.partition import DEFAULT_PART_SIZE_BYTES
														
 
															+from hivemind.client.averaging.allreduce import AllReduceRunner, AllreduceException, GroupID, AveragingMode
														
 
															 from hivemind.client.averaging.load_balancing import load_balance_peers
														
 
															 from hivemind.client.averaging.matchmaking import Matchmaking, MatchmakingException
														
 
															 from hivemind.client.averaging.group_info import GroupInfo
														
@@ -34,9 +35,8 @@ from hivemind.utils import Endpoint, Port, MPFuture, get_logger, TensorDescripto
 
															 # flavour types
														
 
															 StreamCallToLeader = grpc.aio.UnaryStreamCall[averaging_pb2.JoinRequest, averaging_pb2.MessageFromLeader]
														
 
															-DataForGather = Any
														
 
															+GatheredData = Any
														
 
															 logger = get_logger(__name__)
														
 
															-DEFAULT_CHUNK_SIZE_BYTES = 2 ** 16
														
 
															 class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragingServicer):
														
@@ -61,7 +61,7 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
															       towards the (estimated) average by this coefficient. By default, local parameters are set equal to average.
														
 
															     :param request_timeout: when looking for group, wait for a response from leader for at most this many seconds.
														
 
															     :note: request_timeout must be smaller than averaging_expiration to avoid potential deadlocks.
														
 
															-    :param chunk_size_bytes: tensors for AllReduce will be divided into chunks of this size (to improve gRPC throughput)
														
 
															+    :param part_size_bytes: tensors for AllReduce are processed in parts of up to this size (after compression)
														
 
															     :param throughput: if specified, this value represents the network bandwidth available to averager.
														
 
															           By default, the averager is assumed to have the average bandwidth of his group.
														
 
															           If throughput == 0, averager will rely on its groupmates to do all the averaging.
														
@@ -71,6 +71,10 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
															     :param channel_options: options for grpc.aio.insecure_channel, e.g. [('grpc.enable_retries', 0)]
														
 
															           see https://grpc.github.io/grpc/core/group__grpc__arg__keys.html for a list of all options
														
 
															     :param kwargs: extra parameters forwarded to grpc.aio.server
														
 
															+    :param auxiliary: if this flag is specified, averager.step will only assist others without sending
														
 
															+          local tensors for averaging
														
 
															+    :param allow_state_sharing: if set to True, other peers can download this peer's state. Can be overwritten
														
 
															+      with averager.allow_state_sharing = True / False
														
 
															     Example:
														
@@ -90,10 +94,11 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
															     def __init__(self, averaged_tensors: Sequence[torch.Tensor], dht: DHT, *, start: bool,
														
 
															                  prefix: str, target_group_size: int, min_group_size: int = 2, initial_group_bits: Optional[str] = None,
														
 
															-                 averaging_expiration: float = 15, request_timeout: float = 3, chunk_size_bytes: int = 2 ** 16,
														
 
															-                 allreduce_timeout: Optional[float] = None, averaging_alpha: float = 1.0,
														
 
															+                 averaging_expiration: float = 15, request_timeout: float = 3, averaging_alpha: float = 1.0,
														
 
															+                 part_size_bytes: int = DEFAULT_PART_SIZE_BYTES, allreduce_timeout: Optional[float] = None,
														
 
															                  compression_type: runtime_pb2.CompressionType = runtime_pb2.CompressionType.NONE,
														
 
															                  throughput: Optional[float] = None, min_vector_size: int = 0,
														
 
															+                 auxiliary: bool = False, allow_state_sharing: Optional[bool] = None,
														
 
															                  listen: bool = True, listen_on: Endpoint = '0.0.0.0:*', daemon: bool = True,
														
 
															                  channel_options: Optional[Sequence[Tuple[str, Any]]] = None, **kwargs):
														
 
															         assert '.' not in prefix, "group prefix must be a string without trailing '.'"
														
@@ -102,10 +107,18 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
															         if not is_power_of_two(target_group_size):
														
 
															             logger.warning("It is recommended to set target_group_size to a power of 2.")
														
 
															         assert initial_group_bits is None or all(bit in '01' for bit in initial_group_bits)
														
 
															+        assert listen or not auxiliary, "auxiliary peers must accept incoming connections"
														
 
															         super().__init__()
														
 
															         self.dht = dht
														
 
															         self.listen, self.listen_on, self.kwargs = listen, listen_on, kwargs
														
 
															+        if not self.listen:
														
 
															+            self.mode = AveragingMode.CLIENT
														
 
															+        elif auxiliary:
														
 
															+            self.mode = AveragingMode.AUX
														
 
															+        else:
														
 
															+            self.mode = AveragingMode.NODE
														
 
															+
														
 
															         self.channel_options = channel_options
														
 
															         self.daemon = daemon
														
@@ -122,13 +135,17 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
															         self.matchmaking_kwargs = dict(
														
 
															             prefix=prefix, initial_group_bits=initial_group_bits, target_group_size=target_group_size,
														
 
															             min_group_size=min_group_size, averaging_expiration=averaging_expiration, request_timeout=request_timeout)
														
 
															-        self.allreduce_kwargs = dict(compression_type=compression_type, chunk_size_bytes=chunk_size_bytes,
														
 
															+        self.allreduce_kwargs = dict(compression_type=compression_type, part_size_bytes=part_size_bytes,
														
 
															                                      min_vector_size=min_vector_size)
														
 
															         self._averaging_alpha, self._allreduce_timeout = averaging_alpha, allreduce_timeout
														
 
															         self._running_groups: Dict[GroupID, AllReduceRunner] = {}  # one or more assembled groups that run all-reduce
														
 
															         self._pipe, self.pipe = mp.Pipe(duplex=True)  # a control pipe used to communicate with a background process
														
 
															         self._port = mp.Value(ctypes.c_uint32, 0)  # assigned when averager starts, accessible via self.port
														
 
															+
														
 
															+        self._allow_state_sharing = mp.Value(ctypes.c_bool, 0)
														
 
															+        self.allow_state_sharing = (listen and not auxiliary) if allow_state_sharing is None else allow_state_sharing
														
 
															+
														
 
															         self._averager_endpoint: Optional[Endpoint] = None
														
 
															         if not self.listen:
														
 
															             self._averager_endpoint = f'client::{uuid.uuid4()}'
														
@@ -146,6 +163,18 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
															     def port(self) -> Optional[Port]:
														
 
															         return self._port.value if self._port.value != 0 else None
														
 
															+    @property
														
 
															+    def allow_state_sharing(self) -> bool:
														
 
															+        """ if set to True, other peers can download this peer's state """
														
 
															+        return bool(self._allow_state_sharing.value)
														
 
															+
														
 
															+    @allow_state_sharing.setter
														
 
															+    def allow_state_sharing(self, value: bool):
														
 
															+        if value is True and not self.listen:
														
 
															+            logger.warning("Cannot allow state sharing: averager in client mode (listen=False) cannot share its state.")
														
 
															+        else:
														
 
															+            self._allow_state_sharing.value = value
														
 
															+
														
 
															     @property
														
 
															     def endpoint(self) -> Optional[Endpoint]:
														
 
															         if self.listen and self._averager_endpoint is None:
														
@@ -222,8 +251,9 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
															         if self._parent_pid != os.getpid() or self.is_alive():
														
 
															             self.shutdown()
														
 
															-    def step(self, gather: Optional[DataForGather] = None, weight: float = 1.0, timeout: Optional[float] = None,
														
 
															-             allow_retries: bool = True, wait: bool = True) -> Union[Optional[Dict[Endpoint, DataForGather]], MPFuture]:
														
 
															+    def step(self, gather: Optional[GatheredData] = None, weight: Optional[float] = None,
														
 
															+             timeout: Optional[float] = None, allow_retries: bool = True, wait: bool = True
														
 
															+             ) -> Union[Optional[Dict[Endpoint, GatheredData]], MPFuture]:
														
 
															         """
														
 
															         Set up the averager to look for a group and run one round of averaging, return True on success, False on failure
														
@@ -236,7 +266,12 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
															         :param wait: if True (default), return when finished. Otherwise return MPFuture and run in background.
														
 
															         :returns: on success, update averaged_tensors and return group info; on failure, return None
														
 
															         """
														
 
															-        assert isinstance(weight, (int, float)) and weight > 0, f"Expected a positive int/float, got {type(weight)}"
														
 
															+        if self.mode == AveragingMode.AUX and weight is not None:
														
 
															+            logger.warning("Averager is running in auxiliary mode, weight is unused.")
														
 
															+        if weight is None:
														
 
															+            weight = float(self.mode != AveragingMode.AUX)
														
 
															+        assert isinstance(weight, (int, float)) and weight >= 0, f"Expected a positive int/float, got {type(weight)}"
														
 
															+
														
 
															         future, _future = MPFuture.make_pair()
														
 
															         gather_binary = self.serializer.dumps(gather)  # serialize here to avoid loading modules in the averager process
														
 
															         self.pipe.send(('_step', [], dict(future=_future, gather_binary=gather_binary, weight=weight,
														
@@ -245,28 +280,21 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
															     async def _step(self, *, future: MPFuture, gather_binary: bytes, weight: float,
														
 
															                     allow_retries: bool, timeout: Optional[float]):
														
 
															-        loop = asyncio.get_event_loop()
														
 
															         start_time = get_dht_time()
														
 
															-        group_id = None
														
 
															         try:
														
 
															             while not future.done():
														
 
															                 try:
														
 
															                     self._pending_group_assembled.clear()
														
 
															-                    data_for_gather = self.serializer.dumps([weight, self._throughput, self.listen, gather_binary])
														
 
															+                    data_for_gather = self.serializer.dumps([weight, self._throughput, self.mode.value, gather_binary]) 
														
 
															                     group_info = await self._matchmaking.look_for_group(timeout=timeout,
														
 
															                                                                         data_for_gather=data_for_gather)
														
 
															                     if group_info is None:
														
 
															                         raise AllreduceException("Averaging step failed: could not find a group.")
														
 
															-                    group_id = group_info.group_id
														
 
															-                    allreduce_runner = await self._make_allreduce_runner(group_info, **self.allreduce_kwargs)
														
 
															-                    self._running_groups[group_id] = allreduce_runner
														
 
															-                    self._pending_group_assembled.set()
														
 
															-                    await asyncio.wait_for(allreduce_runner.run(), self._allreduce_timeout)
														
 
															-                    await loop.run_in_executor(None, self.update_tensors, allreduce_runner)
														
 
															-                    # averaging is finished, exit the loop
														
 
															-                    future.set_result(allreduce_runner.gathered)
														
 
															+                    future.set_result(await asyncio.wait_for(
														
 
															+                        self._run_allreduce(group_info, **self.allreduce_kwargs), self._allreduce_timeout))
														
 
															+                    # averaging is finished, loop will now exit
														
 
															                 except (AllreduceException, MatchmakingException, AssertionError, StopAsyncIteration, InternalError,
														
 
															                         asyncio.CancelledError, asyncio.InvalidStateError, grpc.RpcError, grpc.aio.AioRpcError) as e:
														
@@ -277,10 +305,6 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
															                     else:
														
 
															                         logger.warning(f"Averager caught {repr(e)}, retrying")
														
 
															-                finally:
														
 
															-                    _ = self._running_groups.pop(group_id, None)
														
 
															-                    self._pending_group_assembled.set()
														
 
															-
														
 
															         except BaseException as e:
														
 
															             if not future.done():
														
 
															                 future.set_exception(e)
														
@@ -290,35 +314,51 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
															                 future.set_exception(RuntimeError("Internal sanity check failed: averager.step left future pending."
														
 
															                                                   " Please report this to hivemind issues."))
														
 
															-    async def _make_allreduce_runner(self, group_info: GroupInfo, min_vector_size: int, **kwargs) -> AllReduceRunner:
														
 
															-        """ Use a group description found by Matchmaking to form AllreduceRunner """
														
 
															+    async def _run_allreduce(self, group_info: GroupInfo, min_vector_size: int, **kwargs) -> GatheredData:
														
 
															+        """ Run All-Reduce in a given group and update tensors in place, return gathered metadata """
														
 
															         try:
														
 
															-            weights, throughputs, modes, user_gathered = zip(*map(self.serializer.loads, group_info.gathered))
														
 
															+            weights, throughputs, mode_ids, user_gathered = zip(*map(self.serializer.loads, group_info.gathered))
														
 
															             user_gathered = dict(zip(group_info.endpoints, map(self.serializer.loads, user_gathered)))
														
 
															+            modes = tuple(map(AveragingMode, mode_ids))
														
 
															-            # compute optimal part sizes from peer throughputs
														
 
															-            incoming_throughputs = [thr if listen else 0.0 for thr, listen in zip(throughputs, modes)]
														
 
															-            part_sizes = await asyncio.get_event_loop().run_in_executor(
														
 
															+            # compute optimal part sizes from peer throughputs; TODO: replace with proper load balancing
														
 
															+            incoming_throughputs = [thr if mode != AveragingMode.CLIENT else 0.0
														
 
															+                                    for thr, mode in zip(throughputs, modes)]
														
 
															+            peer_fractions = await asyncio.get_event_loop().run_in_executor(
														
 
															                 None, load_balance_peers, self.total_size, incoming_throughputs, min_vector_size)
														
 
															-            async with self.get_tensors_async() as averaged_tensors:
														
 
															-                return AllReduceRunner(group_id=group_info.group_id, tensors=averaged_tensors, endpoint=self.endpoint,
														
 
															-                                       ordered_group_endpoints=group_info.endpoints, part_sizes=part_sizes,
														
 
															-                                       weights=weights, gathered=user_gathered, return_deltas=True, **kwargs)
														
 
															-        except Exception as e:
														
 
															-            raise MatchmakingException(f"Unable to create allreduce runner ({e}), group_info: {group_info}")
														
 
															-    def update_tensors(self, allreduce_group: AllReduceRunner):
														
 
															-        """
														
 
															-        a private (extendable) method that applies changes from a finished allreduce to local tensors
														
 
															-        """
														
 
															-        assert allreduce_group.return_deltas and allreduce_group.future.done()
														
 
															-        averaging_deltas = allreduce_group.future.result()
														
 
															+            async with self.get_tensors_async() as local_tensors:
														
 
															+                allreduce = AllReduceRunner(
														
 
															+                    group_id=group_info.group_id, tensors=local_tensors, endpoint=self.endpoint,
														
 
															+                    ordered_group_endpoints=group_info.endpoints, peer_fractions=peer_fractions, weights=weights,
														
 
															+                    gathered=user_gathered, modes=modes, **kwargs)
														
 
															-        with torch.no_grad(), self.get_tensors() as local_tensors:
														
 
															-            assert len(local_tensors) == len(self._averaged_tensors)
														
 
															-            for tensor, update in zip(local_tensors, averaging_deltas):
														
 
															-                tensor.add_(update, alpha=self._averaging_alpha)
														
 
															-        self.last_updated = get_dht_time()
														
 
															+                with self.register_allreduce_group(group_info.group_id, allreduce):
														
 
															+
														
 
															+                    # actually run all-reduce
														
 
															+                    averaging_outputs = [output async for output in allreduce]
														
 
															+
														
 
															+                    if modes[group_info.endpoints.index(self.endpoint)] != AveragingMode.AUX:
														
 
															+                        assert len(local_tensors) == len(self._averaged_tensors)
														
 
															+                        for tensor, update in zip(local_tensors, averaging_outputs):
														
 
															+                            tensor.add_(update, alpha=self._averaging_alpha)
														
 
															+                        self.last_updated = get_dht_time()
														
 
															+
														
 
															+                return allreduce.gathered
														
 
															+        except BaseException as e:
														
 
															+            logger.exception(e)
														
 
															+            raise MatchmakingException(f"Unable to run All-Reduce: {e}")
														
 
															+
														
 
															+    @contextlib.contextmanager
														
 
															+    def register_allreduce_group(self, group_id: GroupID, allreduce: AllReduceRunner):
														
 
															+        """ registers a given all-reduce runner to listen for incoming connections """
														
 
															+        try:
														
 
															+            self._running_groups[group_id] = allreduce
														
 
															+            self._pending_group_assembled.set()
														
 
															+            yield
														
 
															+        finally:
														
 
															+            self._running_groups.pop(group_id, None)
														
 
															+            self._pending_group_assembled.set()
														
 
															     @contextlib.contextmanager
														
 
															     def get_tensors(self) -> Sequence[torch.Tensor]:
														
@@ -366,10 +406,11 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
															     async def _declare_for_download_periodically(self):
														
 
															         download_key = f'{self._matchmaking.group_key_manager.prefix}.all_averagers'
														
 
															         while True:
														
 
															-            asyncio.create_task(asyncio.wait_for(self.dht.store(
														
 
															-                download_key, subkey=self.endpoint, value=self.last_updated,
														
 
															-                expiration_time=get_dht_time() + self._matchmaking.averaging_expiration, return_future=True),
														
 
															-                timeout=self._matchmaking.averaging_expiration))
														
 
															+            if self.allow_state_sharing:
														
 
															+                asyncio.create_task(asyncio.wait_for(self.dht.store(
														
 
															+                    download_key, subkey=self.endpoint, value=self.last_updated,
														
 
															+                    expiration_time=get_dht_time() + self._matchmaking.averaging_expiration, return_future=True),
														
 
															+                    timeout=self._matchmaking.averaging_expiration))
														
 
															             await asyncio.sleep(self._matchmaking.averaging_expiration)
														
 
															     async def rpc_download_state(self, request: averaging_pb2.DownloadRequest, context: grpc.ServicerContext
														
@@ -381,11 +422,12 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
															          - serialized_metadata is a small serialized bytestring meant to store scalars and hyperparameters
														
 
															          - tensors is a sequence of pytorch tensors that represent model parameters or optimizer statistics
														
 
															         """
														
 
															-        chunk_size_bytes = self.matchmaking_kwargs.get('chunk_size_bytes', DEFAULT_CHUNK_SIZE_BYTES)
														
 
															+        if not self.allow_state_sharing:
														
 
															+            return  # deny request and direct peer to the next prospective averager
														
 
															         metadata, tensors = await self._get_current_state_from_host_process()
														
 
															         for tensor in tensors:
														
 
															-            for part in split_for_streaming(serialize_torch_tensor(tensor), chunk_size_bytes):
														
 
															+            for part in split_for_streaming(serialize_torch_tensor(tensor)):
														
 
															                 if metadata is not None:
														
 
															                     yield averaging_pb2.DownloadData(tensor_part=part, metadata=metadata)
														
 
															                     metadata = None
														
@@ -452,6 +494,11 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
															                             current_tensor_parts.append(message.tensor_part)
														
 
															                         if current_tensor_parts:
														
 
															                             tensors.append(deserialize_torch_tensor(combine_from_streaming(current_tensor_parts)))
														
 
															+
														
 
															+                        if not metadata:
														
 
															+                            logger.debug(f"Peer {peer} did not send its state.")
														
 
															+                            continue
														
 
															+
														
 
															                         logger.info(f"Finished downloading state from {peer}")
														
 
															                         future.set_result((metadata, tensors))
														
 
															                         self.last_updated = get_dht_time()
														
@@ -512,7 +559,12 @@ def _background_thread_fetch_current_state(serializer: SerializerBase, pipe: mp.
 
															     :param get_current_state_ref: a WeakMethod wrapped around DecentralizedAverager.get_current_state (instance-bound)
														
 
															     """
														
 
															     while True:
														
 
															-        trigger, future = pipe.recv()
														
 
															+        try:
														
 
															+            trigger, future = pipe.recv()
														
 
															+        except BaseException as e:
														
 
															+            logger.debug(f"Averager background thread finished: {repr(e)}")
														
 
															+            break
														
 
															+            
														
 
															         if trigger == '_SHUTDOWN':
														
 
															             break
														
--- a/hivemind/client/averaging/allreduce.py
+++ b/hivemind/client/averaging/allreduce.py
@@ -1,252 +1,229 @@
 
															 import asyncio
														
 
															-from typing import Sequence, Set, Dict, Tuple, Iterable, AsyncIterator, Any
														
 
															+from typing import Sequence, Dict, Tuple, AsyncIterator, Any, Optional
														
 
															+from enum import Enum
														
 
															 import grpc
														
 
															 import torch
														
 
															-from hivemind.utils import Endpoint, get_logger, ChannelCache, anext
														
 
															-from hivemind.utils import split_for_streaming, combine_from_streaming
														
 
															+from hivemind.client.averaging.partition import TensorPartContainer, TensorPartReducer, AllreduceException
														
 
															+from hivemind.utils import Endpoint, get_logger, ChannelCache
														
 
															+from hivemind.utils.asyncio import anext, achain, aiter, aenumerate, amap_in_executor
														
 
															 from hivemind.utils.compression import serialize_torch_tensor, deserialize_torch_tensor
														
 
															-from hivemind.proto import averaging_pb2_grpc, runtime_pb2, averaging_pb2
														
 
															+from hivemind.proto import averaging_pb2_grpc, averaging_pb2
														
 
															 # flavour types
														
 
															 GroupID = bytes
														
 
															 logger = get_logger(__name__)
														
 
															-class AllReduceProtocol:
														
 
															+class AveragingMode(Enum):
														
 
															+    NODE = 0
														
 
															+    CLIENT = 1
														
 
															+    AUX = 2
														
 
															+
														
 
															+
														
 
															+class AllReduceRunner(averaging_pb2_grpc.DecentralizedAveragingServicer):
														
 
															     """
														
 
															     An internal class that runs butterfly AllReduce in a predefined group of averagers
														
 
															+    :note: this class returns **differences** between averaged and local tensors in order to improve numerical stability
														
 
															+    :param group_id: unique identifier of this specific all-reduce run
														
 
															+    :param tensors: local tensors that should be averaged with groupmates
														
 
															     :param tensors: local tensors that should be averaged with groupmates
														
 
															     :param endpoint: your endpoint, must be included in ordered_group_endpoints
														
 
															     :param ordered_group_endpoints: group endpoints ordered s.t. i-th endpoint is responsible for averaging i-th part
														
 
															-    :param part_sizes: for each peer, a number of vector elements that this peer is responsible for averaging
														
 
															-    :param return_deltas: if True, returns the element-wise differences (averaged_tensors - original_tensors)
														
 
															-           default (False) - return averaged_tensors by themselves
														
 
															+    :param peer_fractions: for each peer, a target fraction of vector elements that this peer should average
														
 
															+      (the actual number of values by peer will be nearly proportional, but there are no exact guarantees)
														
 
															+    :param modes: AveragingMode for each peer in ordered_group_endpoints (normal, client-only or auxiliary)
														
 
															+    :param weights: scaling coefficients for weighted averaging (default = equal weights for all non-aux peers)
														
 
															+    :param gathered: additional user-defined data collected from this group
														
 
															+    :param kwargs: additional paramters (e.g. part_size_bytes) will be passed to TensorPartContainer
														
 
															     """
														
 
															-    def __init__(self, *, group_id: GroupID, tensors: Sequence[torch.Tensor], endpoint: Endpoint,
														
 
															-                 ordered_group_endpoints: Sequence[Endpoint], part_sizes: Tuple[int, ...], return_deltas: bool = False):
														
 
															+    def __init__(
														
 
															+            self, *, group_id: GroupID, tensors: Sequence[torch.Tensor], endpoint: Endpoint,
														
 
															+            ordered_group_endpoints: Sequence[Endpoint], peer_fractions: Tuple[float, ...],
														
 
															+            weights: Optional[Sequence[float]] = None, modes: Optional[Sequence[AveragingMode]] = None,
														
 
															+            gathered: Optional[Dict[Endpoint, Any]] = None, **kwargs):
														
 
															         assert endpoint in ordered_group_endpoints, "endpoint is not a part of the group"
														
 
															-        self.group_id, self.endpoint = group_id, endpoint
														
 
															-        self.ordered_group_endpoints, self.part_sizes = ordered_group_endpoints, part_sizes
														
 
															-        self.client_mode_endpoints = {endpoint for endpoint, part_size in zip(self.ordered_group_endpoints, part_sizes)
														
 
															-                                      if part_size == 0}
														
 
															-        self.local_tensor_parts = dict(zip(ordered_group_endpoints, split_into_parts(tensors, part_sizes)))
														
 
															-        self.tensor_shapes = tuple(tensor.shape for tensor in tensors)
														
 
															-        self.return_deltas = return_deltas
														
 
															-
														
 
															-        self.accumulator = torch.zeros_like(self.local_tensor_parts[self.endpoint])
														
 
															-        self.denominator = 0.0  # number of peers added to accumulator or sum of their weights
														
 
															-        self.accumulated_from: Set[Endpoint] = set()  # peers that we have accumulated our part from
														
 
															-        self.averaged_part: asyncio.Future[torch.Tensor] = asyncio.Future()  # will be set to [accumulator / group size]
														
 
															-        self.averaged_tensor_parts: Dict[Endpoint, torch.Tensor] = {}  # averaged chunks from all peers will be put here
														
 
															-        self.future: asyncio.Future[Sequence[torch.Tensor]] = asyncio.Future()  # final result or exception
														
 
															-        for endpoint in self.client_mode_endpoints:
														
 
															-            self.averaged_tensor_parts[endpoint] = torch.tensor([])
														
 
															+        modes = modes or tuple(AveragingMode.CLIENT if frac == 0 else AveragingMode.NODE for frac in peer_fractions)
														
 
															+        weights = weights or tuple(int(mode != AveragingMode.AUX) for mode in modes)
														
 
															+        assert len(weights) == len(modes) == len(ordered_group_endpoints), "lists have inconsistent length"
														
 
															+        assert any(mode != AveragingMode.CLIENT for mode in modes), "cannot run allreduce without reducers"
														
 
															+        for mode, frac, weight in zip(modes, peer_fractions, weights):
														
 
															+            assert mode != AveragingMode.CLIENT or frac == 0, "client-mode peer should have zero all-reduce fraction"
														
 
															+            assert mode != AveragingMode.AUX or weight == 0, "auxiliary peer should have zero averaging weight"
														
 
															+
														
 
															+        self.group_id, self.endpoint, self.ordered_group_endpoints = group_id, endpoint, ordered_group_endpoints
														
 
															+        self.modes, self.peer_fractions, self.gathered = modes, peer_fractions, gathered
														
 
															+
														
 
															+        self._future = asyncio.Future()
														
 
															+
														
 
															+        self.sender_endpoints, self.sender_weights = [], []
														
 
															+        for endpoint, weight, mode in zip(self.ordered_group_endpoints, weights, modes):
														
 
															+            if mode != AveragingMode.AUX:
														
 
															+                self.sender_endpoints.append(endpoint)
														
 
															+                self.sender_weights.append(weight)
														
 
															+
														
 
															+        endpoint_index = self.ordered_group_endpoints.index(self.endpoint)
														
 
															+        self.tensor_part_container = TensorPartContainer(tensors, peer_fractions, **kwargs)
														
 
															+        self.parts_for_local_averaging = self.tensor_part_container.get_raw_input_parts(endpoint_index)
														
 
															+        self.tensor_part_reducer = TensorPartReducer(tuple(part.shape for part in self.parts_for_local_averaging),
														
 
															+                                                     len(self.sender_endpoints), self.sender_weights)
														
 
															     def __repr__(self):
														
 
															         return f"{self.__class__.__name__}({self.endpoint}, group_size={self.group_size})"
														
 
															-    def __await__(self):
														
 
															-        return self.future.__await__()
														
 
															+    def __aiter__(self):
														
 
															+        return self.run()
														
 
															     def __contains__(self, endpoint: Endpoint):
														
 
															-        return endpoint in self.local_tensor_parts
														
 
															+        return endpoint in self.ordered_group_endpoints
														
 
															     @property
														
 
															     def group_size(self):
														
 
															         return len(self.ordered_group_endpoints)
														
 
															-    async def accumulate_part(self, source: Endpoint, remote_part: torch.Tensor, weight: float = 1.0) -> torch.Tensor:
														
 
															-        """ Add vector part to accumulator, wait for all other vectors to be added, then return the average part """
														
 
															-        assert not self.averaged_part.done(), f"already finished averaging part: {self.averaged_part}"
														
 
															-        assert not self.future.done(), f"already finished allreduce: {self.future}"
														
 
															-        assert source in self.local_tensor_parts, "unexpected source, not a part of current group"
														
 
															-        assert source not in self.accumulated_from, "duplicate source, already received that part"
														
 
															-        assert not self.endpoint in self.client_mode_endpoints, f"{self.endpoint} is in client mode"
														
 
															-        assert isinstance(weight, (int, float)) and weight > 0, "averaging weights must be a non-negative int/float"
														
 
															-        logger.debug(f"{self} - accumulating tensor part from {source}")
														
 
															-
														
 
															-        self.accumulator.add_(remote_part, alpha=weight)
														
 
															-        self.denominator += weight
														
 
															-        self.accumulated_from.add(source)
														
 
															-
														
 
															-        assert len(self.accumulated_from) <= self.group_size
														
 
															-        if len(self.accumulated_from) == len(self.local_tensor_parts):
														
 
															-            average_result = self.accumulator.div_(self.denominator)
														
 
															-            self.register_averaged_part(self.endpoint, average_result)
														
 
															-            self.averaged_part.set_result(average_result)
														
 
															-
														
 
															-        return await self.averaged_part
														
 
															-
														
 
															-    def register_averaged_part(self, source: Endpoint, averaged_part: torch.Tensor):
														
 
															-        assert not self.future.done(), f"already finished allreduce: {self.future}"
														
 
															-        assert source in self.local_tensor_parts, "the provider of averaged part is not from my group"
														
 
															-        assert source not in self.averaged_tensor_parts, "already registered the average from this peer"
														
 
															-        assert averaged_part.shape == self.local_tensor_parts[source].shape, "averaged part shape mismatch"
														
 
															-        assert averaged_part.dtype == self.local_tensor_parts[source].dtype, "averaged part dtype mismatch"
														
 
															-        logger.debug(f"{self} - receiving averaged tensor part from {source}")
														
 
															-        self.averaged_tensor_parts[source] = averaged_part
														
 
															-        if len(self.averaged_tensor_parts) == len(self.local_tensor_parts):
														
 
															-            ordered_averaged_parts = [self.averaged_tensor_parts[endpoint] for endpoint in self.ordered_group_endpoints]
														
 
															-            outputs = restore_from_parts(ordered_averaged_parts, self.tensor_shapes)
														
 
															-
														
 
															-            if self.return_deltas:
														
 
															-                local_parts = [self.local_tensor_parts[peer] for peer in self.ordered_group_endpoints]
														
 
															-                with torch.no_grad():
														
 
															-                    original_tensors = restore_from_parts(local_parts, self.tensor_shapes)
														
 
															-                    for averaged_tensor, original_tensor in zip(outputs, original_tensors):
														
 
															-                        averaged_tensor -= original_tensor
														
 
															-
														
 
															-            self.future.set_result(outputs)
														
 
															-
														
 
															-    def cancel(self) -> bool:
														
 
															-        if not self.future.done():
														
 
															-            logger.debug(f"{self} - cancelled")
														
 
															-            self.future.cancel()
														
 
															-            if not self.averaged_part.done():
														
 
															-                self.averaged_part.cancel()
														
 
															-            return True
														
 
															-        else:
														
 
															-            logger.debug(f"{self} - failed to cancel, allreduce is already finished: {self.future}")
														
 
															-            return False
														
 
															-
														
 
															-    def set_exception(self, exception: Exception) -> bool:
														
 
															-        if not self.future.done():
														
 
															-            logger.debug(f"{self} - {exception}")
														
 
															-            self.future.set_exception(exception)
														
 
															-            if not self.averaged_part.done():
														
 
															-                self.averaged_part.cancel()
														
 
															-            return True
														
 
															-        else:
														
 
															-            logger.debug(f"{self} - failed to set {exception}, allreduce already finished: {self.future}")
														
 
															-            return False
														
 
															-
														
 
															-
														
 
															-class AllReduceRunner(AllReduceProtocol, averaging_pb2_grpc.DecentralizedAveragingServicer):
														
 
															-    """
														
 
															-    A class that implements ButterflyAllReduceProtocol on top of a gRPC servicer
														
 
															-    """
														
 
															-
														
 
															-    def __init__(self, *, group_id: GroupID, tensors: Sequence[torch.Tensor], endpoint: Endpoint,
														
 
															-                 ordered_group_endpoints: Sequence[Endpoint], compression_type: runtime_pb2.CompressionType,
														
 
															-                 chunk_size_bytes: int, part_sizes: Tuple[int, ...], weights: Tuple[float, ...],
														
 
															-                 gathered: Dict[Endpoint, Any], return_deltas: bool = False):
														
 
															-        super().__init__(group_id=group_id, tensors=tensors, endpoint=endpoint, part_sizes=part_sizes,
														
 
															-                         ordered_group_endpoints=ordered_group_endpoints, return_deltas=return_deltas)
														
 
															-        self.compression_type, self.chunk_size_bytes, self.gathered = compression_type, chunk_size_bytes, gathered
														
 
															-        self.peer_weights = dict(zip(self.ordered_group_endpoints, weights))
														
 
															-
														
 
															     def _get_peer_stub(self, peer: Endpoint) -> averaging_pb2_grpc.DecentralizedAveragingStub:
														
 
															         return ChannelCache.get_stub(peer, averaging_pb2_grpc.DecentralizedAveragingStub, aio=True)
														
 
															-    async def _communicate_with_peer(self, peer_endpoint: Endpoint, local_part: torch.Tensor) -> torch.Tensor:
														
 
															-        """ Send a part of local tensors and metadata to a single peer, receive the average for that part of tensors """
														
 
															-        if peer_endpoint == self.endpoint:
														
 
															-            return await self.accumulate_part(self.endpoint, local_part, weight=self.peer_weights[self.endpoint])
														
 
															-        serialized_tensor_part = serialize_torch_tensor(local_part, self.compression_type, allow_inplace=False)
														
 
															-        chunks = split_for_streaming(serialized_tensor_part, self.chunk_size_bytes)
														
 
															-
														
 
															-        stream = self._get_peer_stub(peer_endpoint).rpc_aggregate_part()
														
 
															-        await stream.write(averaging_pb2.AveragingData(code=averaging_pb2.PART_FOR_AVERAGING, group_id=self.group_id,
														
 
															-                                                       endpoint=self.endpoint, tensor_part=next(chunks)))
														
 
															-        for chunk in chunks:
														
 
															-            await stream.write(averaging_pb2.AveragingData(tensor_part=chunk))
														
 
															-        await stream.done_writing()
														
 
															-
														
 
															-        outputs: Sequence[averaging_pb2.AveragingData] = [message async for message in stream]
														
 
															-        code = outputs[0].code if outputs else averaging_pb2.INTERNAL_ERROR
														
 
															-        if code != averaging_pb2.AVERAGED_PART:
														
 
															-            raise AllreduceException(f"peer {peer_endpoint} returned {averaging_pb2.MessageCode.Name(code)}"
														
 
															-                                     f" instead of {averaging_pb2.MessageCode.Name(averaging_pb2.AVERAGED_PART)},"
														
 
															-                                     f" allreduce failed")
														
 
															-
														
 
															+    async def run(self) -> AsyncIterator[torch.Tensor]:
														
 
															+        """ Run all-reduce, return differences between averaged and original tensors as they are computed """
														
 
															+        pending_tasks = set()
														
 
															         try:
														
 
															-            averaged_part = local_part + deserialize_torch_tensor(combine_from_streaming(
														
 
															-                [message.tensor_part for message in outputs]))
														
 
															-        except RuntimeError as e:
														
 
															-            raise AllreduceException(f"Could not deserialize averaged part from {peer_endpoint}: {e}")
														
 
															+            if len(self.sender_endpoints) == 0:
														
 
															+                logger.debug(f"{self} - finished all-reduce early: all peers are auxiliaries ({self.modes})")
														
 
															+                self.finalize()
														
 
															-        self.register_averaged_part(peer_endpoint, averaged_part)
														
 
															-        return averaged_part
														
 
															+            elif self.endpoint in self.sender_endpoints:
														
 
															+                for endpoint, parts in zip(self.ordered_group_endpoints, self.tensor_part_container.num_parts_by_peer):
														
 
															+                    if parts != 0:
														
 
															+                        pending_tasks.add(asyncio.create_task(self._communicate_with_peer(endpoint)))
														
 
															-    async def _send_error_to_peer(self, peer_endpoint: Endpoint, code: averaging_pb2.MessageCode):
														
 
															-        stream = self._get_peer_stub(peer_endpoint).rpc_aggregate_part()
														
 
															-        await stream.write(averaging_pb2.AveragingData(group_id=self.group_id, endpoint=self.endpoint, code=code))
														
 
															-        await stream.done_writing()
														
 
															+                async for averaged_tensor_delta in self.tensor_part_container.iterate_output_tensors():
														
 
															+                    yield averaged_tensor_delta  # delta = averaged_tensor - original_tensor
														
 
															+                self.finalize()
														
 
															+
														
 
															+            else:  # auxiliary peer
														
 
															+                await self.tensor_part_reducer.finished.wait()
														
 
															+                self.finalize()
														
 
															-    async def run(self) -> Sequence[torch.Tensor]:
														
 
															-        """
														
 
															-        send allreduce requests to all peers and collect results, return the averaged tensor (or deltas)
														
 
															-        """
														
 
															-        try:
														
 
															-            await asyncio.gather(self, *(self._communicate_with_peer(peer, self.local_tensor_parts[peer])
														
 
															-                                         for i, peer in enumerate(self.ordered_group_endpoints)
														
 
															-                                         if peer not in self.client_mode_endpoints))
														
 
															-            return await self
														
 
															         except BaseException as e:
														
 
															+            self.finalize(exception=e)
														
 
															+            for task in pending_tasks:
														
 
															+                task.cancel()
														
 
															             code = averaging_pb2.CANCELLED if isinstance(e, asyncio.CancelledError) else averaging_pb2.INTERNAL_ERROR
														
 
															             logger.debug(f"{self} - notifying peers about {averaging_pb2.MessageCode.Name(code)}")
														
 
															-            self.set_exception(e)
														
 
															-            for peer_endpoint, part_size in zip(self.ordered_group_endpoints, self.part_sizes):
														
 
															-                if peer_endpoint != self.endpoint and part_size > 0:
														
 
															+            for peer_endpoint, mode in zip(self.ordered_group_endpoints, self.modes):
														
 
															+                if peer_endpoint != self.endpoint and mode != AveragingMode.CLIENT:
														
 
															                     asyncio.create_task(self._send_error_to_peer(peer_endpoint, code))
														
 
															             raise
														
 
															-    async def accumulate_part_streaming(self, source: Endpoint, stream_messages: Iterable[runtime_pb2.Tensor]
														
 
															-                                        ) -> Iterable[runtime_pb2.Tensor]:
														
 
															-        """ accumulate_part using streams of serialized tensors. Used to prevent duplicate work in serialization """
														
 
															-        try:
														
 
															-            tensor_part = deserialize_torch_tensor(combine_from_streaming(stream_messages))
														
 
															-        except RuntimeError as e:
														
 
															-            raise AllreduceException(f"Could not deserialize tensor part from {source} for streaming {e}")
														
 
															+    async def _communicate_with_peer(self, peer_endpoint: Endpoint):
														
 
															+        """ Send a part of local tensors and metadata to a single peer, receive the average for that part of tensors """
														
 
															+        peer_index = self.ordered_group_endpoints.index(peer_endpoint)
														
 
															+        if peer_endpoint == self.endpoint:
														
 
															+            sender_index = self.sender_endpoints.index(peer_endpoint)
														
 
															+            for part_index, tensor_part in enumerate(self.parts_for_local_averaging):
														
 
															+                averaged_part = await self.tensor_part_reducer.accumulate_part(sender_index, part_index, tensor_part)
														
 
															+                self.tensor_part_container.register_processed_part(peer_index, part_index, averaged_part - tensor_part)
														
 
															-        averaged_part = await self.accumulate_part(source, tensor_part, weight=self.peer_weights[source])
														
 
															-        serialized_tensor = serialize_torch_tensor(averaged_part - tensor_part, self.compression_type, allow_inplace=False)
														
 
															-        stream_chunks = tuple(split_for_streaming(serialized_tensor, self.chunk_size_bytes))
														
 
															-        return stream_chunks
														
 
															+        else:
														
 
															+            loop = asyncio.get_event_loop()
														
 
															+            stream = self._get_peer_stub(peer_endpoint).rpc_aggregate_part()
														
 
															+            write_task = asyncio.create_task(self._write_to_peer(stream, peer_index))
														
 
															+
														
 
															+            try:
														
 
															+                code = None
														
 
															+                async for part_index, msg in aenumerate(stream):
														
 
															+                    if code is None:
														
 
															+                        code = msg.code
														
 
															+                    averaged_part_delta = await loop.run_in_executor(None, deserialize_torch_tensor, msg.tensor_part)
														
 
															+                    self.tensor_part_container.register_processed_part(peer_index, part_index, averaged_part_delta)
														
 
															+                await write_task
														
 
															+
														
 
															+                if code != averaging_pb2.AVERAGED_PART:
														
 
															+                    raise AllreduceException(f"peer {peer_endpoint} returned {averaging_pb2.MessageCode.Name(code)} "
														
 
															+                                             f"instead of {averaging_pb2.MessageCode.Name(averaging_pb2.AVERAGED_PART)}"
														
 
															+                                             f", allreduce failed")
														
 
															+            finally:
														
 
															+                if not write_task.done():
														
 
															+                    write_task.cancel()
														
 
															+
														
 
															+    async def _write_to_peer(self, stream: grpc.aio.StreamStreamCall, peer_index: int):
														
 
															+        parts_aiter = self.tensor_part_container.iterate_input_parts_for(peer_index)
														
 
															+        first_part = await anext(parts_aiter)
														
 
															+        await stream.write(averaging_pb2.AveragingData(code=averaging_pb2.PART_FOR_AVERAGING,
														
 
															+                                                       group_id=self.group_id, endpoint=self.endpoint,
														
 
															+                                                       tensor_part=first_part))
														
 
															+        async for part in parts_aiter:
														
 
															+            await stream.write(averaging_pb2.AveragingData(tensor_part=part))
														
 
															+
														
 
															+        await stream.done_writing()
														
 
															     async def rpc_aggregate_part(self, stream: AsyncIterator[averaging_pb2.AveragingData], context: grpc.ServicerContext
														
 
															                                  ) -> AsyncIterator[averaging_pb2.AveragingData]:
														
 
															-        """ a groupmate sends us a part of his tensor; we should average it with other peers and return the delta"""
														
 
															+        """ a peer sends us a part of his tensor; we should average it with other peers and return the difference """
														
 
															         request: averaging_pb2.AveragingData = await anext(stream)
														
 
															-
														
 
															-        if request.group_id != self.group_id:
														
 
															-            yield averaging_pb2.AveragingData(code=averaging_pb2.BAD_GROUP_ID)
														
 
															+        reason_to_reject = self._check_reasons_to_reject(request)
														
 
															+        if reason_to_reject:
														
 
															+            yield reason_to_reject
														
 
															+            return
														
 
															         elif request.code == averaging_pb2.PART_FOR_AVERAGING:
														
 
															             try:
														
 
															-                tensor_chunks = (request.tensor_part, *[msg.tensor_part async for msg in stream])
														
 
															-                averaged_chunks = iter(await self.accumulate_part_streaming(request.endpoint, tensor_chunks))
														
 
															-                yield averaging_pb2.AveragingData(code=averaging_pb2.AVERAGED_PART, tensor_part=next(averaged_chunks))
														
 
															-                for averaged_chunk in averaged_chunks:
														
 
															-                    yield averaging_pb2.AveragingData(tensor_part=averaged_chunk)
														
 
															+                sender_index = self.sender_endpoints.index(request.endpoint)
														
 
															+                async for msg in self._accumulate_parts_streaming(achain(aiter(request), stream), sender_index):
														
 
															+                    yield msg
														
 
															             except Exception as e:
														
 
															-                self.set_exception(e)
														
 
															+                self.finalize(exception=e)
														
 
															                 yield averaging_pb2.AveragingData(code=averaging_pb2.INTERNAL_ERROR)
														
 
															         else:
														
 
															             error_code = averaging_pb2.MessageCode.Name(request.code)
														
 
															             logger.debug(f"{self} - peer {request.endpoint} sent {error_code}, allreduce cannot continue")
														
 
															-            self.set_exception(AllreduceException(f"peer {request.endpoint} sent {error_code}."))
														
 
															+            self.finalize(exception=AllreduceException(f"peer {request.endpoint} sent {error_code}."))
														
 
															             yield averaging_pb2.AveragingData(code=averaging_pb2.INTERNAL_ERROR)
														
 
															+    def _check_reasons_to_reject(self, request: averaging_pb2.AveragingData) -> Optional[averaging_pb2.AveragingData]:
														
 
															+        if request.group_id != self.group_id:
														
 
															+            return averaging_pb2.AveragingData(code=averaging_pb2.BAD_GROUP_ID)
														
 
															+        elif self._future.cancelled():
														
 
															+            return averaging_pb2.AveragingData(code=averaging_pb2.CANCELLED)
														
 
															+        elif self._future.done():
														
 
															+            return averaging_pb2.AveragingData(code=averaging_pb2.INTERNAL_ERROR)
														
 
															+
														
 
															+    async def _accumulate_parts_streaming(self, stream: AsyncIterator[averaging_pb2.AveragingData], sender_index: int):
														
 
															+        loop = asyncio.get_event_loop()
														
 
															+        async for part_index, (tensor_part, part_compression) in aenumerate(
														
 
															+                amap_in_executor(lambda msg: (deserialize_torch_tensor(msg.tensor_part), msg.tensor_part.compression), stream,
														
 
															+                                 max_prefetch=self.tensor_part_container.prefetch)):
														
 
															+            averaged_part = await self.tensor_part_reducer.accumulate_part(sender_index, part_index, tensor_part)
														
 
															+
														
 
															+            serialized_delta = await loop.run_in_executor(
														
 
															+                None, lambda: serialize_torch_tensor(averaged_part - tensor_part, part_compression))
														
 
															+            yield averaging_pb2.AveragingData(code=averaging_pb2.AVERAGED_PART, tensor_part=serialized_delta)
														
 
															-def split_into_parts(tensors: Sequence[torch.Tensor], part_sizes: Tuple[int]) -> Tuple[torch.Tensor, ...]:
														
 
															-    """ combines averaged_tensors into one tensor and splits them into equal chunks of size group_size """
														
 
															-    flat_tensor = torch.cat(tuple(map(torch.Tensor.flatten, tensors)))
														
 
															-    return torch.split_with_sizes(flat_tensor, part_sizes, dim=0)
														
 
															-
														
 
															-
														
 
															-def restore_from_parts(chunks: Sequence[torch.Tensor], shapes: Sequence[torch.Size]) -> Tuple[torch.Tensor, ...]:
														
 
															-    """ restores the original tensor shapes from chunks obtained by split_into_chunks """
														
 
															-    flat_tensor = torch.cat(tuple(chunks))
														
 
															-    result_sizes = tuple(map(torch.Size.numel, shapes))
														
 
															-    flat_original_tensors = torch.split_with_sizes(flat_tensor, result_sizes)
														
 
															-    return tuple(map(torch.Tensor.reshape, flat_original_tensors, shapes))
														
 
															-
														
 
															+    async def _send_error_to_peer(self, peer_endpoint: Endpoint, code: averaging_pb2.MessageCode):
														
 
															+        stream = self._get_peer_stub(peer_endpoint).rpc_aggregate_part()
														
 
															+        await stream.write(averaging_pb2.AveragingData(group_id=self.group_id, endpoint=self.endpoint, code=code))
														
 
															+        await stream.done_writing()
														
 
															-class AllreduceException(Exception):
														
 
															-    """ A special exception that is raised when allreduce can't continue normally (e.g. disbanded/bad request/etc) """
														
 
															+    def finalize(self, *, cancel: bool = False, exception: Optional[BaseException] = None):
														
 
															+        assert not cancel or not exception, "finalize accepts either exception or cancel, but not both"
														
 
															+        if not self._future.done():
														
 
															+            if cancel:
														
 
															+                logger.debug(f"{self} - cancelled")
														
 
															+                self._future.cancel()
														
 
															+            elif exception:
														
 
															+                logger.debug(f"{self} - caught {exception}")
														
 
															+                self._future.set_exception(exception)
														
 
															+            else:
														
 
															+                logger.debug(f"{self} - finished")
														
 
															+                self._future.set_result(None)
														
 
															+            self.tensor_part_container.finalize()
														
 
															+            self.tensor_part_reducer.finalize()
														
 
															+            return True
														
 
															+        else:
														
 
															+            logger.debug(f"{self} - could not finish: allreduce is already finished: {self._future}")
														
 
															+            return False
														
--- a/hivemind/client/averaging/load_balancing.py
+++ b/hivemind/client/averaging/load_balancing.py
@@ -28,6 +28,7 @@ def load_balance_peers(vector_size, throughputs: Sequence[Optional[float]], min_
 
															         assert not all(throughput == 0 for throughput in throughputs), "Must have at least one nonzero throughput"
														
 
															         scores = np.asarray([1.0 if throughput is None else 0.0 for throughput in throughputs])
														
 
															+    #TODO(jheuristic) we no longer need hagenbach-bishoff with new AllReduceRunner
														
 
															     return tuple(hagenbach_bishoff(vector_size, scores))
														
--- a/hivemind/client/averaging/matchmaking.py
+++ b/hivemind/client/averaging/matchmaking.py
@@ -391,7 +391,7 @@ class PotentialLeaders:
 
															             if maybe_next_leader is None or self.max_assured_time <= entry.expiration_time <= self.search_end_time:
														
 
															                 self.update_triggered.set()
														
 
															-            if maybe_next_leader is None or entry.expiration_time >= self.declared_expiration_time:
														
 
															+            if maybe_next_leader is None or (entry.expiration_time, maybe_next_leader) > (self.declared_expiration_time, self.endpoint):
														
 
															                 await asyncio.wait({self.update_finished.wait(), self.declared_expiration.wait()},
														
 
															                                    return_when=asyncio.FIRST_COMPLETED)
														
 
															                 self.declared_expiration.clear()
														
--- a/hivemind/client/averaging/partition.py
+++ b/hivemind/client/averaging/partition.py
@@ -0,0 +1,224 @@
 
															+"""
														
 
															+Auxiliary data structures for AllReduceRunner
														
 
															+"""
														
 
															+import asyncio
														
 
															+from typing import Sequence, AsyncIterable, Tuple, Optional, TypeVar, Union, AsyncIterator
														
 
															+from collections import deque
														
 
															+
														
 
															+import torch
														
 
															+import numpy as np
														
 
															+
														
 
															+from hivemind.proto.runtime_pb2 import CompressionType, Tensor
														
 
															+from hivemind.utils.compression import serialize_torch_tensor, get_nbytes_per_value
														
 
															+from hivemind.utils.asyncio import amap_in_executor
														
 
															+
														
 
															+
														
 
															+T = TypeVar('T')
														
 
															+DEFAULT_PART_SIZE_BYTES = 2 ** 20
														
 
															+
														
 
															+
														
 
															+class TensorPartContainer:
														
 
															+    """
														
 
															+    Auxiliary data structure for averaging, responsible for splitting tensors into parts and reassembling them.
														
 
															+    The class is designed to avoid excessive memory allocation and run all heavy computation in background
														
 
															+    :param tensors: local tensors to be split and aggregated
														
 
															+    :param peer_fractions: for each peer, a target fraction of vector elements that this peer should average
														
 
															+    :param compression_type: optionally compress tensors with this compression algorithm before sending them to peers
														
 
															+    :param part_size_bytes: greedily split tensors into parts of up to this many bytes (after compression)
														
 
															+    :param prefetch: when compressing, pre-compute this many compressed tensors in background
														
 
															+    """
														
 
															+
														
 
															+    def __init__(self, tensors: Sequence[torch.Tensor], peer_fractions: Sequence[float],
														
 
															+                 compression_type: Union[type(CompressionType), Sequence[type(CompressionType)]] = CompressionType.NONE,
														
 
															+                 part_size_bytes: int = 2 ** 20, prefetch: int = 1):
														
 
															+        if not isinstance(compression_type, Sequence):
														
 
															+            compression_type = [compression_type] * len(tensors)
														
 
															+        assert len(compression_type) == len(tensors), "compression types do not match the number of tensors"
														
 
															+        self.local_tensors, self.peer_fractions, self.group_size = tensors, peer_fractions, len(peer_fractions)
														
 
															+        self.compression_type, self.part_size_bytes, self.prefetch = compression_type, part_size_bytes, prefetch
														
 
															+        self.total_size = sum(tensor.numel() for tensor in tensors)
														
 
															+        self._input_parts_by_peer = [deque() for _ in range(self.group_size)]
														
 
															+        self._output_parts_by_peer = [deque() for _ in range(self.group_size)]
														
 
															+        self._inputs_consumed_by_peer = [False for _ in range(self.group_size)]
														
 
															+        self._output_part_available = [asyncio.Event() for _ in range(self.group_size)]
														
 
															+        self._outputs_registered_by_peer = [0 for _ in range(self.group_size)]
														
 
															+        self._outputs_consumed = False
														
 
															+        self.finished = asyncio.Event()
														
 
															+        self.num_parts_by_tensor = []
														
 
															+
														
 
															+        # split tensor parts in proportion to target_size_by_peer
														
 
															+        current_length = 0
														
 
															+        current_peer_index = 0
														
 
															+        pivots = (np.cumsum(peer_fractions) / np.sum(peer_fractions) * self.total_size).astype(np.int64)
														
 
															+        pivots[-1] = self.total_size
														
 
															+
														
 
															+        for tensor, tensor_compression in zip(self.local_tensors, compression_type):
														
 
															+            part_size_values = int(part_size_bytes / get_nbytes_per_value(tensor.dtype, tensor_compression))
														
 
															+            tensor_parts = tensor.detach().view(-1).split(part_size_values)
														
 
															+            self.num_parts_by_tensor.append(len(tensor_parts))
														
 
															+            for part in tensor_parts:
														
 
															+                if current_length + len(part) > pivots[current_peer_index]:
														
 
															+                    # switch to next peer; if a part lands between parts of two or
														
 
															+                    # more peers, assign that part to the peer with highest intersection
														
 
															+                    prev_peer_index = current_peer_index
														
 
															+                    peer_intersections = [pivots[current_peer_index] - current_length]
														
 
															+                    while current_length + len(part) > pivots[current_peer_index]:
														
 
															+                        current_peer_index += 1
														
 
															+                        current_peer_part_end = min(current_length + len(part), pivots[current_peer_index])
														
 
															+                        peer_intersections.append(current_peer_part_end - pivots[current_peer_index - 1])
														
 
															+                    assigned_peer_index = prev_peer_index + np.argmax(peer_intersections)
														
 
															+                    self._input_parts_by_peer[assigned_peer_index].append((part, tensor_compression))
														
 
															+                else:
														
 
															+                    self._input_parts_by_peer[current_peer_index].append((part, tensor_compression))
														
 
															+                current_length += len(part)
														
 
															+
														
 
															+        assert current_length == self.total_size
														
 
															+        self.num_parts_by_peer = tuple(len(parts) for parts in self._input_parts_by_peer)
														
 
															+
														
 
															+    @torch.no_grad()
														
 
															+    def get_raw_input_parts(self, peer_index: int) -> Tuple[torch.Tensor, ...]:
														
 
															+        """ get non-serialized tensor parts for a peer at a given index """
														
 
															+        assert not self._inputs_consumed_by_peer[peer_index], "input parts of a given peer are already deallocated."
														
 
															+        self._inputs_consumed_by_peer[peer_index] = True
														
 
															+        input_parts = tuple(part for part, compression in self._input_parts_by_peer[peer_index])
														
 
															+        self._input_parts_by_peer[peer_index].clear()
														
 
															+        return input_parts
														
 
															+
														
 
															+    @torch.no_grad()
														
 
															+    async def iterate_input_parts_for(self, peer_index: int) -> AsyncIterator[Tensor]:
														
 
															+        """ iterate serialized tensor parts for a peer at a given index. Run serialization in background. """
														
 
															+        assert not self._inputs_consumed_by_peer[peer_index], "input parts of a given peer are already deallocated."
														
 
															+        self._inputs_consumed_by_peer[peer_index] = True
														
 
															+
														
 
															+        async def _aiterate_parts():
														
 
															+            for _ in range(self.num_parts_by_peer[peer_index]):
														
 
															+                yield self._input_parts_by_peer[peer_index].popleft()
														
 
															+
														
 
															+        async for serialized_part in amap_in_executor(lambda x_and_compr: serialize_torch_tensor(*x_and_compr),
														
 
															+                                                      _aiterate_parts(), max_prefetch=self.prefetch):
														
 
															+            yield serialized_part
														
 
															+
														
 
															+    def register_processed_part(self, peer_index: int, part_index: int, part: torch.Tensor):
														
 
															+        """
														
 
															+        register next-in-line part of results received from a given peer for use in iterate_output_tensors
														
 
															+        depending on the algorithm, processed part is an average, difference from average or another aggregation
														
 
															+        """
														
 
															+        if part_index != self._outputs_registered_by_peer[peer_index]:
														
 
															+            raise ValueError(f"Could not register part #{part_index} from peer #{peer_index}, "
														
 
															+                             f" expected part index: {self._outputs_registered_by_peer[peer_index]}")
														
 
															+        self._output_parts_by_peer[peer_index].append(part)
														
 
															+        self._outputs_registered_by_peer[peer_index] += 1
														
 
															+        self._output_part_available[peer_index].set()
														
 
															+
														
 
															+    async def iterate_output_tensors(self) -> AsyncIterable[torch.Tensor]:
														
 
															+        """ iterate over the outputs of averaging (whether they are average, delta or other aggregation result) """
														
 
															+        assert not self._outputs_consumed, "output tensors are already iterated and no longer available."
														
 
															+        self._outputs_consumed = True
														
 
															+        peer_index = num_parts_processed = 0
														
 
															+        for tensor_index in range(len(self.local_tensors)):
														
 
															+            tensor_parts = []
														
 
															+            while len(tensor_parts) < self.num_parts_by_tensor[tensor_index]:
														
 
															+                if num_parts_processed >= self.num_parts_by_peer[peer_index]:
														
 
															+                    num_parts_processed = 0
														
 
															+                    peer_index += 1
														
 
															+                    continue
														
 
															+                if not self._output_parts_by_peer[peer_index]:
														
 
															+                    self._output_part_available[peer_index].clear()
														
 
															+                    await self._output_part_available[peer_index].wait()
														
 
															+                    if self.finished.is_set():
														
 
															+                        raise AllreduceException("All-reduce was terminated during iteration.")
														
 
															+
														
 
															+                tensor_parts.append(self._output_parts_by_peer[peer_index].popleft())
														
 
															+                num_parts_processed += 1
														
 
															+            tensor = torch.cat(tensor_parts)
														
 
															+            del tensor_parts
														
 
															+            yield tensor.reshape(self.local_tensors[tensor_index].shape)
														
 
															+
														
 
															+    def __del__(self):
														
 
															+        self.finalize()
														
 
															+
														
 
															+    def finalize(self):
														
 
															+        """ terminate all iterators, delete intermediate data """
														
 
															+        if not self.finished.is_set():
														
 
															+            for peer_index in range(self.group_size):
														
 
															+                self._inputs_consumed_by_peer[peer_index] = True
														
 
															+                self._input_parts_by_peer[peer_index].clear()
														
 
															+                self._output_parts_by_peer[peer_index].clear()
														
 
															+                self._output_part_available[peer_index].set()
														
 
															+            self._outputs_consumed = True
														
 
															+            self.finished.set()
														
 
															+
														
 
															+
														
 
															+class TensorPartReducer:
														
 
															+    """
														
 
															+    Auxiliary data structure responsible for running asynchronous all-reduce
														
 
															+    :param part_shapes: a sequence of shapes of torch tensors that will be averaged by this reducer
														
 
															+    :param num_senders: total number of peers in a given all-reduce group that will send gradients
														
 
															+    :param weights: relative importance of each sender, used for weighted average (default = equal weights)
														
 
															+    :note: even if local peer is not sending data, local parts will be used for shape information
														
 
															+    """
														
 
															+
														
 
															+    def __init__(self, part_shapes: Sequence[torch.Size], num_senders: int,
														
 
															+                 weights: Optional[Sequence[float]] = None):
														
 
															+        self.part_shapes, self.num_senders, self.num_parts = part_shapes, num_senders, len(part_shapes)
														
 
															+        self.weights = tuple(weights or (1 for _ in range(num_senders)))
														
 
															+        assert len(self.weights) == self.num_senders, "The number of weights is inconsistent with num_senders"
														
 
															+        assert all(isinstance(weight, (int, float)) for weight in self.weights)
														
 
															+        self.current_part_index = -1  # index in local_parts of the part that should be loaded next
														
 
															+        self.current_part_accumulated_from = 0  # number of peers from which the current part was accumulated
														
 
															+        self.accumulator = None  # this will contain the sum of current tensor part from group peers
														
 
															+        self.denominator = 0.0  # total weight accumulated from all peers for current part
														
 
															+        self.current_part_future = asyncio.Future()
														
 
															+        self.finished = asyncio.Event()
														
 
															+        self.reset_accumulators()
														
 
															+
														
 
															+    def reset_accumulators(self):
														
 
															+        """ (re)create averaging buffers for the next part in line, prepopulate with local tensor part """
														
 
															+        assert self.current_part_accumulated_from == self.num_senders or self.current_part_index == -1
														
 
															+        if self.current_part_index >= self.num_parts - 1:
														
 
															+            self.finalize()
														
 
															+            return
														
 
															+
														
 
															+        self.current_part_index += 1
														
 
															+        self.current_part_accumulated_from = 0
														
 
															+        self.current_part_future = asyncio.Future()
														
 
															+        self.accumulator = torch.zeros(self.part_shapes[self.current_part_index])
														
 
															+        self.denominator = 0.0
														
 
															+
														
 
															+    async def accumulate_part(self, sender_index: int, part_index: int, tensor_part: torch.Tensor) -> torch.Tensor:
														
 
															+        """ Add vector part to accumulator, wait for all other vectors to be added, then return the average part """
														
 
															+        assert 0 <= sender_index < self.num_senders, "invalid sender index"
														
 
															+        assert 0 <= part_index < self.num_parts, "invalid part index"
														
 
															+
														
 
															+        while part_index > self.current_part_index:
														
 
															+            # wait for previous parts to finish processing ...
														
 
															+            await asyncio.wait({self.current_part_future, self.finished.wait()}, return_when=asyncio.FIRST_COMPLETED)
														
 
															+            if self.finished.is_set():
														
 
															+                raise AllreduceException(f"attempted to aggregate part in a finalized {self.__class__.__name__}")
														
 
															+        assert part_index == self.current_part_index
														
 
															+
														
 
															+        current_part_future = self.current_part_future
														
 
															+
														
 
															+        self.accumulator.add_(tensor_part, alpha=self.weights[sender_index])
														
 
															+        self.denominator += self.weights[sender_index]
														
 
															+        self.current_part_accumulated_from += 1
														
 
															+
														
 
															+        assert self.current_part_accumulated_from <= self.num_senders
														
 
															+        if self.current_part_accumulated_from == self.num_senders:
														
 
															+            current_part_future.set_result(self.accumulator.div_(self.denominator))
														
 
															+            self.reset_accumulators()
														
 
															+        return await current_part_future
														
 
															+
														
 
															+    def finalize(self):
														
 
															+        if not self.finished.is_set():
														
 
															+            if hasattr(self, 'current_part_future'):
														
 
															+                self.current_part_future.cancel()
														
 
															+                del self.accumulator
														
 
															+            self.finished.set()
														
 
															+
														
 
															+    def __del__(self):
														
 
															+        self.finalize()
														
 
															+
														
 
															+
														
 
															+class AllreduceException(Exception):
														
 
															+    """ A special exception that is raised when allreduce can't continue normally (e.g. disconnected/protocol error) """
														
--- a/hivemind/optim/collaborative.py
+++ b/hivemind/optim/collaborative.py
@@ -191,7 +191,7 @@ class CollaborativeOptimizer(DecentralizedOptimizerBase):
 
															         with self.lock_local_progress:
														
 
															             self.local_samples_accumulated += batch_size
														
 
															             self.local_steps_accumulated += 1
														
 
															-            self.performance_ema.update(num_processed=self.batch_size_per_step)
														
 
															+            self.performance_ema.update(num_processed=batch_size)
														
 
															             self.should_report_progress.set()
														
 
															         if not self.collaboration_state.ready_for_step:
														
@@ -232,9 +232,43 @@ class CollaborativeOptimizer(DecentralizedOptimizerBase):
 
															             self.collaboration_state_updated.set()
														
 
															             self.update_scheduler()
														
 
															-            logger.log(self.status_loglevel, f"Optimizer step: done!")
														
 
															+        logger.log(self.status_loglevel, f"Optimizer step: done!")
														
 
															-            return group_info
														
 
															+        return group_info
														
 
															+
														
 
															+    def step_aux(self, **kwargs):
														
 
															+        """
														
 
															+        Find and assist other peers in averaging without sending local gradients.
														
 
															+
														
 
															+        :note: this .step is different from normal pytorch optimizers in several key ways. See __init__ for details.
														
 
															+        """
														
 
															+
														
 
															+        if not self.collaboration_state.ready_for_step:
														
 
															+            return
														
 
															+
														
 
															+        logger.log(self.status_loglevel,
														
 
															+                   f"Beginning global optimizer step {self.collaboration_state.optimizer_step}")
														
 
															+        self.collaboration_state = self.fetch_collaboration_state()
														
 
															+        self.collaboration_state_updated.set()
														
 
															+
														
 
															+        with self.lock_collaboration_state:
														
 
															+            # divide accumulators by local steps to recover the true average grad w.r.t. local_samples_accumulated
														
 
															+            current_step, group_info = self.averager.local_step, None
														
 
															+            try:
														
 
															+                group_info = self.averager.step(timeout=self.averaging_timeout, **kwargs)
														
 
															+                if group_info:
														
 
															+                    logger.log(self.status_loglevel,
														
 
															+                               f"Averaged tensors successfully with {len(group_info)} peers")
														
 
															+            except BaseException as e:
														
 
															+                logger.log(self.status_loglevel, f"Skipped averaging: averaging round failed with {repr(e)}.")
														
 
															+
														
 
															+            self.collaboration_state.register_step(current_step + 1)
														
 
															+            self.averager.local_step = current_step + 1
														
 
															+            self.collaboration_state_updated.set()
														
 
															+
														
 
															+        logger.log(self.status_loglevel, f"Optimizer step: done!")
														
 
															+
														
 
															+        return group_info
														
 
															     def _grad_buffers(self) -> Iterator[torch.Tensor]:
														
 
															         """ pytorch-internal gradient buffers """
														
--- a/hivemind/p2p/__init__.py
+++ b/hivemind/p2p/__init__.py
@@ -0,0 +1 @@
 
															+from hivemind.p2p.p2p_daemon import P2P
														
--- a/hivemind/p2p/p2p_daemon.py
+++ b/hivemind/p2p/p2p_daemon.py
@@ -0,0 +1,377 @@
 
															+import asyncio
														
 
															+from copy import deepcopy
														
 
															+from dataclasses import dataclass
														
 
															+from importlib.resources import path
														
 
															+from subprocess import Popen
														
 
															+from typing import List, Optional
														
 
															+
														
 
															+import google.protobuf
														
 
															+from multiaddr import Multiaddr
														
 
															+
														
 
															+import hivemind.hivemind_cli as cli
														
 
															+import hivemind.p2p.p2p_daemon_bindings.p2pclient as p2pclient
														
 
															+from hivemind.p2p.p2p_daemon_bindings.datastructures import PeerID, StreamInfo
														
 
															+from hivemind.proto import p2pd_pb2
														
 
															+from hivemind.utils import MSGPackSerializer
														
 
															+from hivemind.utils.logging import get_logger
														
 
															+from hivemind.utils.networking import find_open_port
														
 
															+
														
 
															+logger = get_logger(__name__)
														
 
															+
														
 
															+
														
 
															+P2PD_FILENAME = 'p2pd'
														
 
															+NUM_RETRIES = 3
														
 
															+RETRY_DELAY = 0.4
														
 
															+
														
 
															+
														
 
															+class P2PInterruptedError(Exception):
														
 
															+    pass
														
 
															+
														
 
															+
														
 
															+@dataclass(frozen=False)
														
 
															+class P2PContext(object):
														
 
															+    id: str
														
 
															+    port: int
														
 
															+    handle_name: str
														
 
															+    peer_id: PeerID = None
														
 
															+    peer_addr: Multiaddr = None
														
 
															+
														
 
															+
														
 
															+class P2P:
														
 
															+    """
														
 
															+    Forks a child process and executes p2pd command with given arguments.
														
 
															+    Can be used for peer to peer communication and procedure calls.
														
 
															+    Sends SIGKILL to the child in destructor.
														
 
															+    """
														
 
															+
														
 
															+    HEADER_LEN = 8
														
 
															+    BYTEORDER = 'big'
														
 
															+    PB_HEADER_LEN = 1
														
 
															+    RESULT_MESSAGE = b'\x00'
														
 
															+    ERROR_MESSAGE = b'\x01'
														
 
															+    DHT_MODE_MAPPING = {
														
 
															+        'dht': {'dht': 1},
														
 
															+        'dht_server': {'dhtServer': 1},
														
 
															+        'dht_client': {'dhtClient': 1},
														
 
															+    }
														
 
															+    FORCE_REACHABILITY_MAPPING = {
														
 
															+        'public': {'forceReachabilityPublic': 1},
														
 
															+        'private': {'forceReachabilityPrivate': 1},
														
 
															+    }
														
 
															+
														
 
															+    def __init__(self):
														
 
															+        self._child = None
														
 
															+        self._alive = False
														
 
															+        self._listen_task = None
														
 
															+        self._server_stopped = asyncio.Event()
														
 
															+
														
 
															+    @classmethod
														
 
															+    async def create(cls, *args, quic: bool = True, tls: bool = True, conn_manager: bool = True,
														
 
															+                     dht_mode: str = 'dht_server', force_reachability: Optional[str] = None,
														
 
															+                     nat_port_map: bool = True, auto_nat: bool = True, bootstrap: bool = False,
														
 
															+                     bootstrap_peers: Optional[List[str]] = None, use_global_ipfs: bool = False, host_port: int = None,
														
 
															+                     daemon_listen_port: int = None, use_relay: bool = True, use_relay_hop: bool = False,
														
 
															+                     use_relay_discovery: bool = False, use_auto_relay: bool = False, relay_hop_limit: int = 0, **kwargs):
														
 
															+        """
														
 
															+        Start a new p2pd process and connect to it.
														
 
															+        :param args:
														
 
															+        :param quic: Enables the QUIC transport
														
 
															+        :param tls: Enables TLS1.3 channel security protocol
														
 
															+        :param conn_manager: Enables the Connection Manager
														
 
															+        :param dht_mode: DHT mode (dht_client/dht_server/dht)
														
 
															+        :param force_reachability: Force reachability mode (public/private)
														
 
															+        :param nat_port_map: Enables NAT port mapping
														
 
															+        :param auto_nat: Enables the AutoNAT service
														
 
															+        :param bootstrap: Connects to bootstrap peers and bootstraps the dht if enabled
														
 
															+        :param bootstrap_peers: List of bootstrap peers; defaults to the IPFS DHT peers
														
 
															+        :param use_global_ipfs: Bootstrap to global ipfs (works only if bootstrap=True and bootstrap_peers=None)
														
 
															+        :param host_port: port for p2p network
														
 
															+        :param daemon_listen_port: port for connection daemon and client binding
														
 
															+        :param use_relay: enables circuit relay
														
 
															+        :param use_relay_hop: enables hop for relay
														
 
															+        :param use_relay_discovery: enables passive discovery for relay
														
 
															+        :param use_auto_relay: enables autorelay
														
 
															+        :param relay_hop_limit: sets the hop limit for hop relays
														
 
															+        :param kwargs:
														
 
															+        :return: new wrapper for p2p daemon
														
 
															+        """
														
 
															+
														
 
															+        assert not (bootstrap and bootstrap_peers is None and not use_global_ipfs), \
														
 
															+            'Trying to create with bootstrap node without bootstrap nodes list. ' \
														
 
															+            'It is very dangerous, because p2pd connects to global ipfs and it is very unstable. ' \
														
 
															+            'If you really want this, pass use_global_ipfs=True'
														
 
															+        assert not (bootstrap_peers is not None and use_global_ipfs), \
														
 
															+            'Non empty bootstrap_nodes and use_global_ipfs=True are incompatible.' \
														
 
															+            'Choose one option: your nodes list (preferable) or global ipfs (very unstable)'
														
 
															+
														
 
															+        self = cls()
														
 
															+        with path(cli, P2PD_FILENAME) as p:
														
 
															+            p2pd_path = p
														
 
															+        bootstrap_peers = cls._make_bootstrap_peers(bootstrap_peers)
														
 
															+        dht = cls.DHT_MODE_MAPPING.get(dht_mode, {'dht': 0})
														
 
															+        force_reachability = cls.FORCE_REACHABILITY_MAPPING.get(force_reachability, {})
														
 
															+        proc_args = self._make_process_args(
														
 
															+            str(p2pd_path), *args,
														
 
															+            quic=quic, tls=tls, connManager=conn_manager,
														
 
															+            natPortMap=nat_port_map, autonat=auto_nat,
														
 
															+            relay=use_relay, relayHop=use_relay_hop, relayDiscovery=use_relay_discovery,
														
 
															+            autoRelay=use_auto_relay, relayHopLimit=relay_hop_limit,
														
 
															+            b=bootstrap, **{**bootstrap_peers, **dht, **force_reachability, **kwargs})
														
 
															+        self._assign_daemon_ports(host_port, daemon_listen_port)
														
 
															+
														
 
															+        for try_count in range(NUM_RETRIES):
														
 
															+            try:
														
 
															+                self._initialize(proc_args)
														
 
															+                await self._wait_for_client(RETRY_DELAY * (2 ** try_count))
														
 
															+                break
														
 
															+            except Exception as e:
														
 
															+                logger.debug(f"Failed to initialize p2p daemon: {e}")
														
 
															+                self._terminate()
														
 
															+                if try_count == NUM_RETRIES - 1:
														
 
															+                    raise
														
 
															+                self._assign_daemon_ports()
														
 
															+
														
 
															+        return self
														
 
															+
														
 
															+    @classmethod
														
 
															+    async def replicate(cls, daemon_listen_port: int, host_port: int):
														
 
															+        """
														
 
															+        Connect to existing p2p daemon
														
 
															+        :param daemon_listen_port: port for connection daemon and client binding
														
 
															+        :param host_port: port for p2p network
														
 
															+        :return: new wrapper for existing p2p daemon
														
 
															+        """
														
 
															+
														
 
															+        self = cls()
														
 
															+        # There is no child under control
														
 
															+        # Use external already running p2pd
														
 
															+        self._child = None
														
 
															+        self._alive = True
														
 
															+        self._assign_daemon_ports(host_port, daemon_listen_port)
														
 
															+        self._client_listen_port = find_open_port()
														
 
															+        self._client = p2pclient.Client(
														
 
															+            Multiaddr(f'/ip4/127.0.0.1/tcp/{self._daemon_listen_port}'),
														
 
															+            Multiaddr(f'/ip4/127.0.0.1/tcp/{self._client_listen_port}'))
														
 
															+        await self._wait_for_client()
														
 
															+        return self
														
 
															+
														
 
															+    async def wait_for_at_least_n_peers(self, n_peers, attempts=3, delay=1):
														
 
															+        for _ in range(attempts):
														
 
															+            peers = await self._client.list_peers()
														
 
															+            if len(peers) >= n_peers:
														
 
															+                return
														
 
															+            await asyncio.sleep(delay)
														
 
															+
														
 
															+        raise RuntimeError('Not enough peers')
														
 
															+
														
 
															+    def _initialize(self, proc_args: List[str]) -> None:
														
 
															+        proc_args = deepcopy(proc_args)
														
 
															+        proc_args.extend(self._make_process_args(
														
 
															+            hostAddrs=f'/ip4/0.0.0.0/tcp/{self._host_port},/ip4/0.0.0.0/udp/{self._host_port}/quic',
														
 
															+            listen=f'/ip4/127.0.0.1/tcp/{self._daemon_listen_port}'
														
 
															+        ))
														
 
															+        self._child = Popen(args=proc_args, encoding="utf8")
														
 
															+        self._alive = True
														
 
															+        self._client_listen_port = find_open_port()
														
 
															+        self._client = p2pclient.Client(
														
 
															+            Multiaddr(f'/ip4/127.0.0.1/tcp/{self._daemon_listen_port}'),
														
 
															+            Multiaddr(f'/ip4/127.0.0.1/tcp/{self._client_listen_port}'))
														
 
															+
														
 
															+    async def _wait_for_client(self, delay=0):
														
 
															+        await asyncio.sleep(delay)
														
 
															+        encoded = await self._client.identify()
														
 
															+        self.id = encoded[0].to_base58()
														
 
															+
														
 
															+    def _assign_daemon_ports(self, host_port=None, daemon_listen_port=None):
														
 
															+        if host_port is None:
														
 
															+            host_port = find_open_port()
														
 
															+        if daemon_listen_port is None:
														
 
															+            daemon_listen_port = find_open_port()
														
 
															+            while daemon_listen_port == host_port:
														
 
															+                daemon_listen_port = find_open_port()
														
 
															+
														
 
															+        self._host_port, self._daemon_listen_port = host_port, daemon_listen_port
														
 
															+
														
 
															+    @staticmethod
														
 
															+    async def send_raw_data(byte_str, writer):
														
 
															+        request = len(byte_str).to_bytes(P2P.HEADER_LEN, P2P.BYTEORDER) + byte_str
														
 
															+        writer.write(request)
														
 
															+
														
 
															+    @staticmethod
														
 
															+    async def send_msgpack(data, writer):
														
 
															+        raw_data = MSGPackSerializer.dumps(data)
														
 
															+        await P2P.send_raw_data(raw_data, writer)
														
 
															+
														
 
															+    @staticmethod
														
 
															+    async def send_protobuf(protobuf, out_proto_type, writer):
														
 
															+        if type(protobuf) != out_proto_type:
														
 
															+            raise TypeError('Unary handler returned protobuf of wrong type.')
														
 
															+        if out_proto_type == p2pd_pb2.RPCError:
														
 
															+            await P2P.send_raw_data(P2P.ERROR_MESSAGE, writer)
														
 
															+        else:
														
 
															+            await P2P.send_raw_data(P2P.RESULT_MESSAGE, writer)
														
 
															+
														
 
															+        await P2P.send_raw_data(protobuf.SerializeToString(), writer)
														
 
															+
														
 
															+    @staticmethod
														
 
															+    async def receive_raw_data(reader: asyncio.StreamReader, header_len=HEADER_LEN):
														
 
															+        header = await reader.readexactly(header_len)
														
 
															+        content_length = int.from_bytes(header, P2P.BYTEORDER)
														
 
															+        data = await reader.readexactly(content_length)
														
 
															+        return data
														
 
															+
														
 
															+    @staticmethod
														
 
															+    async def receive_msgpack(reader):
														
 
															+        return MSGPackSerializer.loads(await P2P.receive_raw_data(reader))
														
 
															+
														
 
															+    @staticmethod
														
 
															+    async def receive_protobuf(in_proto_type, reader):
														
 
															+        msg_type = await P2P.receive_raw_data(reader)
														
 
															+        if msg_type == P2P.RESULT_MESSAGE:
														
 
															+            protobuf = in_proto_type()
														
 
															+            protobuf.ParseFromString(await P2P.receive_raw_data(reader))
														
 
															+            return protobuf, None
														
 
															+        elif msg_type == P2P.ERROR_MESSAGE:
														
 
															+            protobuf = p2pd_pb2.RPCError()
														
 
															+            protobuf.ParseFromString(await P2P.receive_raw_data(reader))
														
 
															+            return None, protobuf
														
 
															+        else:
														
 
															+            raise TypeError('Invalid Protobuf message type')
														
 
															+
														
 
															+    @staticmethod
														
 
															+    def _handle_stream(handle):
														
 
															+        async def do_handle_stream(stream_info, reader, writer):
														
 
															+            try:
														
 
															+                request = await P2P.receive_raw_data(reader)
														
 
															+            except asyncio.IncompleteReadError:
														
 
															+                logger.debug("Incomplete read while receiving request from peer")
														
 
															+                writer.close()
														
 
															+                return
														
 
															+            try:
														
 
															+                result = handle(request)
														
 
															+                await P2P.send_raw_data(result, writer)
														
 
															+            finally:
														
 
															+                writer.close()
														
 
															+
														
 
															+        return do_handle_stream
														
 
															+
														
 
															+    @staticmethod
														
 
															+    def _handle_unary_stream(handle, context, in_proto_type, out_proto_type):
														
 
															+        async def watchdog(reader: asyncio.StreamReader):
														
 
															+            await reader.read(n=1)
														
 
															+            raise P2PInterruptedError()
														
 
															+
														
 
															+        async def do_handle_unary_stream(
														
 
															+                stream_info: StreamInfo,
														
 
															+                reader: asyncio.StreamReader,
														
 
															+                writer: asyncio.StreamWriter) -> None:
														
 
															+            try:
														
 
															+                try:
														
 
															+                    request = await P2P.receive_protobuf(in_proto_type, reader)
														
 
															+                except asyncio.IncompleteReadError:
														
 
															+                    logger.debug("Incomplete read while receiving request from peer")
														
 
															+                    return
														
 
															+                except google.protobuf.message.DecodeError as error:
														
 
															+                    logger.exception(error)
														
 
															+                    return
														
 
															+
														
 
															+                context.peer_id, context.peer_addr = stream_info.peer_id, stream_info.addr
														
 
															+                done, pending = await asyncio.wait([watchdog(reader), handle(request, context)],
														
 
															+                                                   return_when=asyncio.FIRST_COMPLETED)
														
 
															+                try:
														
 
															+                    result = done.pop().result()
														
 
															+                    await P2P.send_protobuf(result, out_proto_type, writer)
														
 
															+                except P2PInterruptedError:
														
 
															+                    pass
														
 
															+                except Exception as exc:
														
 
															+                    error = p2pd_pb2.RPCError(message=str(exc))
														
 
															+                    await P2P.send_protobuf(error, p2pd_pb2.RPCError, writer)
														
 
															+                finally:
														
 
															+                    pending_task = pending.pop()
														
 
															+                    pending_task.cancel()
														
 
															+                    try:
														
 
															+                        await pending_task
														
 
															+                    except asyncio.CancelledError:
														
 
															+                        pass
														
 
															+            finally:
														
 
															+                writer.close()
														
 
															+
														
 
															+        return do_handle_unary_stream
														
 
															+
														
 
															+    def start_listening(self):
														
 
															+        async def listen():
														
 
															+            async with self._client.listen():
														
 
															+                await self._server_stopped.wait()
														
 
															+
														
 
															+        self._listen_task = asyncio.create_task(listen())
														
 
															+
														
 
															+    async def stop_listening(self):
														
 
															+        if self._listen_task is not None:
														
 
															+            self._server_stopped.set()
														
 
															+            self._listen_task.cancel()
														
 
															+            try:
														
 
															+                await self._listen_task
														
 
															+            except asyncio.CancelledError:
														
 
															+                self._listen_task = None
														
 
															+                self._server_stopped.clear()
														
 
															+
														
 
															+    async def add_stream_handler(self, name, handle):
														
 
															+        if self._listen_task is None:
														
 
															+            self.start_listening()
														
 
															+        await self._client.stream_handler(name, self._handle_stream(handle))
														
 
															+
														
 
															+    async def add_unary_handler(self, name, handle, in_proto_type, out_proto_type):
														
 
															+        if self._listen_task is None:
														
 
															+            self.start_listening()
														
 
															+        context = P2PContext(id=self.id, port=self._host_port, handle_name=name)
														
 
															+        await self._client.stream_handler(
														
 
															+            name, P2P._handle_unary_stream(handle, context, in_proto_type, out_proto_type))
														
 
															+
														
 
															+    async def call_peer_handler(self, peer_id, handler_name, input_data):
														
 
															+        libp2p_peer_id = PeerID.from_base58(peer_id)
														
 
															+        stream_info, reader, writer = await self._client.stream_open(libp2p_peer_id, (handler_name,))
														
 
															+        try:
														
 
															+            await P2P.send_raw_data(input_data, writer)
														
 
															+            return await P2P.receive_raw_data(reader)
														
 
															+        finally:
														
 
															+            writer.close()
														
 
															+
														
 
															+    def __del__(self):
														
 
															+        self._terminate()
														
 
															+
														
 
															+    @property
														
 
															+    def is_alive(self):
														
 
															+        return self._alive
														
 
															+
														
 
															+    async def shutdown(self):
														
 
															+        await asyncio.get_event_loop().run_in_executor(None, self._terminate)
														
 
															+
														
 
															+    def _terminate(self):
														
 
															+        self._alive = False
														
 
															+        if self._child is not None and self._child.poll() is None:
														
 
															+            self._child.kill()
														
 
															+            self._child.wait()
														
 
															+
														
 
															+    @staticmethod
														
 
															+    def _make_process_args(*args, **kwargs) -> List[str]:
														
 
															+        proc_args = []
														
 
															+        proc_args.extend(
														
 
															+            str(entry) for entry in args
														
 
															+        )
														
 
															+        proc_args.extend(
														
 
															+            f'-{key}={P2P._convert_process_arg_type(value)}' if value is not None else f'-{key}'
														
 
															+            for key, value in kwargs.items()
														
 
															+        )
														
 
															+        return proc_args
														
 
															+
														
 
															+    @staticmethod
														
 
															+    def _convert_process_arg_type(val):
														
 
															+        if isinstance(val, bool):
														
 
															+            return 1 if val else 0
														
 
															+        return val
														
 
															+
														
 
															+    @staticmethod
														
 
															+    def _make_bootstrap_peers(nodes):
														
 
															+        if nodes is None:
														
 
															+            return {}
														
 
															+        return {'bootstrapPeers': ','.join(nodes)}
														
--- a/hivemind/p2p/p2p_daemon_bindings/__init__.py
+++ b/hivemind/p2p/p2p_daemon_bindings/__init__.py
--- a/hivemind/p2p/p2p_daemon_bindings/control.py
+++ b/hivemind/p2p/p2p_daemon_bindings/control.py
@@ -0,0 +1,210 @@
 
															+"""
														
 
															+Originally taken from: https://github.com/mhchia/py-libp2p-daemon-bindings
														
 
															+Licence: MIT
														
 
															+Author: Kevin Mai-Husan Chia
														
 
															+"""
														
 
															+
														
 
															+import asyncio
														
 
															+from contextlib import asynccontextmanager
														
 
															+from typing import (AsyncIterator, Awaitable, Callable, Dict, Iterable,
														
 
															+                    Sequence, Tuple)
														
 
															+
														
 
															+from multiaddr import Multiaddr, protocols
														
 
															+
														
 
															+from hivemind.p2p.p2p_daemon_bindings.datastructures import (PeerID, PeerInfo,
														
 
															+                                                             StreamInfo)
														
 
															+from hivemind.p2p.p2p_daemon_bindings.utils import (DispatchFailure,
														
 
															+                                                    raise_if_failed,
														
 
															+                                                    read_pbmsg_safe,
														
 
															+                                                    write_pbmsg)
														
 
															+from hivemind.proto import p2pd_pb2 as p2pd_pb
														
 
															+from hivemind.utils.logging import get_logger
														
 
															+
														
 
															+StreamHandler = Callable[[StreamInfo, asyncio.StreamReader, asyncio.StreamWriter], Awaitable[None]]
														
 
															+
														
 
															+SUPPORT_CONN_PROTOCOLS = (
														
 
															+    protocols.P_IP4,
														
 
															+    # protocols.P_IP6,
														
 
															+    protocols.P_UNIX,
														
 
															+)
														
 
															+SUPPORTED_PROTOS = (
														
 
															+    protocols.protocol_with_code(proto) for proto in SUPPORT_CONN_PROTOCOLS
														
 
															+)
														
 
															+logger = get_logger(__name__)
														
 
															+
														
 
															+
														
 
															+def parse_conn_protocol(maddr: Multiaddr) -> int:
														
 
															+    proto_codes = set(proto.code for proto in maddr.protocols())
														
 
															+    proto_cand = proto_codes.intersection(SUPPORT_CONN_PROTOCOLS)
														
 
															+    if len(proto_cand) != 1:
														
 
															+        raise ValueError(
														
 
															+            f"connection protocol should be only one protocol out of {SUPPORTED_PROTOS}"
														
 
															+            f", maddr={maddr}"
														
 
															+        )
														
 
															+    return tuple(proto_cand)[0]
														
 
															+
														
 
															+
														
 
															+class DaemonConnector:
														
 
															+    DEFAULT_CONTROL_MADDR = "/unix/tmp/p2pd.sock"
														
 
															+
														
 
															+    def __init__(self, control_maddr: Multiaddr = Multiaddr(DEFAULT_CONTROL_MADDR)) -> None:
														
 
															+        self.control_maddr = control_maddr
														
 
															+        self.proto_code = parse_conn_protocol(self.control_maddr)
														
 
															+
														
 
															+    async def open_connection(self) -> (asyncio.StreamReader, asyncio.StreamWriter):
														
 
															+        if self.proto_code == protocols.P_UNIX:
														
 
															+            control_path = self.control_maddr.value_for_protocol(protocols.P_UNIX)
														
 
															+            logger.debug(f"DaemonConnector {self} opens connection to {self.control_maddr}")
														
 
															+            return await asyncio.open_unix_connection(control_path)
														
 
															+        elif self.proto_code == protocols.P_IP4:
														
 
															+            host = self.control_maddr.value_for_protocol(protocols.P_IP4)
														
 
															+            port = int(self.control_maddr.value_for_protocol(protocols.P_TCP))
														
 
															+            return await asyncio.open_connection(host, port)
														
 
															+        else:
														
 
															+            raise ValueError(
														
 
															+                f"Protocol not supported: {protocols.protocol_with_code(self.proto_code)}"
														
 
															+            )
														
 
															+
														
 
															+
														
 
															+class ControlClient:
														
 
															+    DEFAULT_LISTEN_MADDR = "/unix/tmp/p2pclient.sock"
														
 
															+
														
 
															+    def __init__(
														
 
															+            self, daemon_connector: DaemonConnector, listen_maddr: Multiaddr = Multiaddr(DEFAULT_LISTEN_MADDR)
														
 
															+    ) -> None:
														
 
															+        self.listen_maddr = listen_maddr
														
 
															+        self.daemon_connector = daemon_connector
														
 
															+        self.handlers: Dict[str, StreamHandler] = {}
														
 
															+
														
 
															+    async def _handler(self, reader: asyncio.StreamReader, writer: asyncio.StreamWriter):
														
 
															+        pb_stream_info = p2pd_pb.StreamInfo()  # type: ignore
														
 
															+        await read_pbmsg_safe(reader, pb_stream_info)
														
 
															+        stream_info = StreamInfo.from_protobuf(pb_stream_info)
														
 
															+        logger.debug(f"New incoming stream: {stream_info}")
														
 
															+        try:
														
 
															+            handler = self.handlers[stream_info.proto]
														
 
															+        except KeyError as e:
														
 
															+            # should never enter here... daemon should reject the stream for us.
														
 
															+            writer.close()
														
 
															+            raise DispatchFailure(e)
														
 
															+        await handler(stream_info, reader, writer)
														
 
															+
														
 
															+    @asynccontextmanager
														
 
															+    async def listen(self) -> AsyncIterator["ControlClient"]:
														
 
															+        proto_code = parse_conn_protocol(self.listen_maddr)
														
 
															+        if proto_code == protocols.P_UNIX:
														
 
															+            listen_path = self.listen_maddr.value_for_protocol(protocols.P_UNIX)
														
 
															+            server = await asyncio.start_unix_server(self._handler, path=listen_path)
														
 
															+        elif proto_code == protocols.P_IP4:
														
 
															+            host = self.listen_maddr.value_for_protocol(protocols.P_IP4)
														
 
															+            port = int(self.listen_maddr.value_for_protocol(protocols.P_TCP))
														
 
															+            server = await asyncio.start_server(self._handler, port=port, host=host)
														
 
															+        else:
														
 
															+            raise ValueError(
														
 
															+                f"Protocol not supported: {protocols.protocol_with_code(proto_code)}"
														
 
															+            )
														
 
															+
														
 
															+        async with server:
														
 
															+            logger.info(f"DaemonConnector {self} starts listening to {self.listen_maddr}")
														
 
															+            yield self
														
 
															+
														
 
															+        logger.info(f"DaemonConnector {self} closed")
														
 
															+
														
 
															+    async def identify(self) -> Tuple[PeerID, Tuple[Multiaddr, ...]]:
														
 
															+        reader, writer = await self.daemon_connector.open_connection()
														
 
															+        req = p2pd_pb.Request(type=p2pd_pb.Request.IDENTIFY)
														
 
															+        await write_pbmsg(writer, req)
														
 
															+
														
 
															+        resp = p2pd_pb.Response()  # type: ignore
														
 
															+        await read_pbmsg_safe(reader, resp)
														
 
															+        writer.close()
														
 
															+
														
 
															+        raise_if_failed(resp)
														
 
															+        peer_id_bytes = resp.identify.id
														
 
															+        maddrs_bytes = resp.identify.addrs
														
 
															+
														
 
															+        maddrs = tuple(Multiaddr(maddr_bytes) for maddr_bytes in maddrs_bytes)
														
 
															+        peer_id = PeerID(peer_id_bytes)
														
 
															+
														
 
															+        return peer_id, maddrs
														
 
															+
														
 
															+    async def connect(self, peer_id: PeerID, maddrs: Iterable[Multiaddr]) -> None:
														
 
															+        reader, writer = await self.daemon_connector.open_connection()
														
 
															+
														
 
															+        maddrs_bytes = [i.to_bytes() for i in maddrs]
														
 
															+        connect_req = p2pd_pb.ConnectRequest(
														
 
															+            peer=peer_id.to_bytes(), addrs=maddrs_bytes
														
 
															+        )
														
 
															+        req = p2pd_pb.Request(type=p2pd_pb.Request.CONNECT, connect=connect_req)
														
 
															+        await write_pbmsg(writer, req)
														
 
															+
														
 
															+        resp = p2pd_pb.Response()  # type: ignore
														
 
															+        await read_pbmsg_safe(reader, resp)
														
 
															+        writer.close()
														
 
															+        raise_if_failed(resp)
														
 
															+
														
 
															+    async def list_peers(self) -> Tuple[PeerInfo, ...]:
														
 
															+        req = p2pd_pb.Request(type=p2pd_pb.Request.LIST_PEERS)
														
 
															+        reader, writer = await self.daemon_connector.open_connection()
														
 
															+        await write_pbmsg(writer, req)
														
 
															+        resp = p2pd_pb.Response()  # type: ignore
														
 
															+        await read_pbmsg_safe(reader, resp)
														
 
															+        writer.close()
														
 
															+        raise_if_failed(resp)
														
 
															+
														
 
															+        peers = tuple(PeerInfo.from_protobuf(pinfo) for pinfo in resp.peers)
														
 
															+        return peers
														
 
															+
														
 
															+    async def disconnect(self, peer_id: PeerID) -> None:
														
 
															+        disconnect_req = p2pd_pb.DisconnectRequest(peer=peer_id.to_bytes())
														
 
															+        req = p2pd_pb.Request(
														
 
															+            type=p2pd_pb.Request.DISCONNECT, disconnect=disconnect_req
														
 
															+        )
														
 
															+        reader, writer = await self.daemon_connector.open_connection()
														
 
															+        await write_pbmsg(writer, req)
														
 
															+        resp = p2pd_pb.Response()  # type: ignore
														
 
															+        await read_pbmsg_safe(reader, resp)
														
 
															+        writer.close()
														
 
															+        raise_if_failed(resp)
														
 
															+
														
 
															+    async def stream_open(
														
 
															+        self, peer_id: PeerID, protocols: Sequence[str]
														
 
															+    ) -> Tuple[StreamInfo, asyncio.StreamReader, asyncio.StreamWriter]:
														
 
															+        reader, writer = await self.daemon_connector.open_connection()
														
 
															+
														
 
															+        stream_open_req = p2pd_pb.StreamOpenRequest(
														
 
															+            peer=peer_id.to_bytes(), proto=list(protocols)
														
 
															+        )
														
 
															+        req = p2pd_pb.Request(
														
 
															+            type=p2pd_pb.Request.STREAM_OPEN, streamOpen=stream_open_req
														
 
															+        )
														
 
															+        await write_pbmsg(writer, req)
														
 
															+
														
 
															+        resp = p2pd_pb.Response()  # type: ignore
														
 
															+        await read_pbmsg_safe(reader, resp)
														
 
															+        raise_if_failed(resp)
														
 
															+
														
 
															+        pb_stream_info = resp.streamInfo
														
 
															+        stream_info = StreamInfo.from_protobuf(pb_stream_info)
														
 
															+
														
 
															+        return stream_info, reader, writer
														
 
															+
														
 
															+    async def stream_handler(self, proto: str, handler_cb: StreamHandler) -> None:
														
 
															+        reader, writer = await self.daemon_connector.open_connection()
														
 
															+
														
 
															+        listen_path_maddr_bytes = self.listen_maddr.to_bytes()
														
 
															+        stream_handler_req = p2pd_pb.StreamHandlerRequest(
														
 
															+            addr=listen_path_maddr_bytes, proto=[proto]
														
 
															+        )
														
 
															+        req = p2pd_pb.Request(
														
 
															+            type=p2pd_pb.Request.STREAM_HANDLER, streamHandler=stream_handler_req
														
 
															+        )
														
 
															+        await write_pbmsg(writer, req)
														
 
															+
														
 
															+        resp = p2pd_pb.Response()  # type: ignore
														
 
															+        await read_pbmsg_safe(reader, resp)
														
 
															+        writer.close()
														
 
															+        raise_if_failed(resp)
														
 
															+
														
 
															+        # if success, add the handler to the dict
														
 
															+        self.handlers[proto] = handler_cb
														
--- a/hivemind/p2p/p2p_daemon_bindings/datastructures.py
+++ b/hivemind/p2p/p2p_daemon_bindings/datastructures.py
@@ -0,0 +1,170 @@
 
															+"""
														
 
															+Originally taken from: https://github.com/mhchia/py-libp2p-daemon-bindings
														
 
															+Licence: MIT
														
 
															+Author: Kevin Mai-Husan Chia
														
 
															+"""
														
 
															+
														
 
															+import hashlib
														
 
															+from typing import Any, Sequence, Union
														
 
															+
														
 
															+import base58
														
 
															+import multihash
														
 
															+from multiaddr import Multiaddr, protocols
														
 
															+
														
 
															+from hivemind.proto import p2pd_pb2
														
 
															+
														
 
															+# NOTE: On inlining...
														
 
															+# See: https://github.com/libp2p/specs/issues/138
														
 
															+# NOTE: enabling to be interoperable w/ the Go implementation
														
 
															+ENABLE_INLINING = True
														
 
															+MAX_INLINE_KEY_LENGTH = 42
														
 
															+
														
 
															+IDENTITY_MULTIHASH_CODE = 0x00
														
 
															+
														
 
															+if ENABLE_INLINING:
														
 
															+
														
 
															+    class IdentityHash:
														
 
															+        def __init__(self) -> None:
														
 
															+            self._digest = bytearray()
														
 
															+
														
 
															+        def update(self, input: bytes) -> None:
														
 
															+            self._digest += input
														
 
															+
														
 
															+        def digest(self) -> bytes:
														
 
															+            return self._digest
														
 
															+
														
 
															+    multihash.FuncReg.register(
														
 
															+        IDENTITY_MULTIHASH_CODE, "identity", hash_new=IdentityHash
														
 
															+    )
														
 
															+
														
 
															+
														
 
															+class PeerID:
														
 
															+    def __init__(self, peer_id_bytes: bytes) -> None:
														
 
															+        self._bytes = peer_id_bytes
														
 
															+        self._xor_id = int(sha256_digest(self._bytes).hex(), 16)
														
 
															+        self._b58_str = base58.b58encode(self._bytes).decode()
														
 
															+
														
 
															+    @property
														
 
															+    def xor_id(self) -> int:
														
 
															+        return self._xor_id
														
 
															+
														
 
															+    def to_bytes(self) -> bytes:
														
 
															+        return self._bytes
														
 
															+
														
 
															+    def to_base58(self) -> str:
														
 
															+        return self._b58_str
														
 
															+
														
 
															+    def __repr__(self) -> str:
														
 
															+        return f"<libp2p.peer.id.ID ({self.to_base58()})>"
														
 
															+
														
 
															+    def __str__(self):
														
 
															+        return self.to_base58()
														
 
															+
														
 
															+    def pretty(self):
														
 
															+        return self.to_base58()
														
 
															+
														
 
															+    def to_string(self):
														
 
															+        return self.to_base58()
														
 
															+
														
 
															+    def __eq__(self, other: object) -> bool:
														
 
															+        if isinstance(other, str):
														
 
															+            return self.to_base58() == other
														
 
															+        elif isinstance(other, bytes):
														
 
															+            return self._bytes == other
														
 
															+        elif isinstance(other, PeerID):
														
 
															+            return self._bytes == other._bytes
														
 
															+        else:
														
 
															+            return False
														
 
															+
														
 
															+    def __hash__(self) -> int:
														
 
															+        return hash(self._bytes)
														
 
															+
														
 
															+    @classmethod
														
 
															+    def from_base58(cls, base58_id: str) -> "PeerID":
														
 
															+        peer_id_bytes = base58.b58decode(base58_id)
														
 
															+        return cls(peer_id_bytes)
														
 
															+
														
 
															+
														
 
															+def sha256_digest(data: Union[str, bytes]) -> bytes:
														
 
															+    if isinstance(data, str):
														
 
															+        data = data.encode("utf8")
														
 
															+    return hashlib.sha256(data).digest()
														
 
															+
														
 
															+
														
 
															+class StreamInfo:
														
 
															+    def __init__(self, peer_id: PeerID, addr: Multiaddr, proto: str) -> None:
														
 
															+        self.peer_id = peer_id
														
 
															+        self.addr = addr
														
 
															+        self.proto = proto
														
 
															+
														
 
															+    def __repr__(self) -> str:
														
 
															+        return (
														
 
															+            f"<StreamInfo peer_id={self.peer_id} addr={self.addr} proto={self.proto}>"
														
 
															+        )
														
 
															+
														
 
															+    def to_protobuf(self) -> p2pd_pb2.StreamInfo:
														
 
															+        pb_msg = p2pd_pb2.StreamInfo(
														
 
															+            peer=self.peer_id.to_bytes(), addr=self.addr.to_bytes(), proto=self.proto
														
 
															+        )
														
 
															+        return pb_msg
														
 
															+
														
 
															+    @classmethod
														
 
															+    def from_protobuf(cls, pb_msg: p2pd_pb2.StreamInfo) -> "StreamInfo":
														
 
															+        stream_info = cls(
														
 
															+            peer_id=PeerID(pb_msg.peer), addr=Multiaddr(pb_msg.addr), proto=pb_msg.proto
														
 
															+        )
														
 
															+        return stream_info
														
 
															+
														
 
															+
														
 
															+class PeerInfo:
														
 
															+    def __init__(self, peer_id: PeerID, addrs: Sequence[Multiaddr]) -> None:
														
 
															+        self.peer_id = peer_id
														
 
															+        self.addrs = list(addrs)
														
 
															+
														
 
															+    def __eq__(self, other: Any) -> bool:
														
 
															+        return (
														
 
															+            isinstance(other, PeerInfo)
														
 
															+            and self.peer_id == other.peer_id
														
 
															+            and self.addrs == other.addrs
														
 
															+        )
														
 
															+
														
 
															+    @classmethod
														
 
															+    def from_protobuf(cls, peer_info_pb: p2pd_pb2.PeerInfo) -> "PeerInfo":
														
 
															+        peer_id = PeerID(peer_info_pb.id)
														
 
															+        addrs = [Multiaddr(addr) for addr in peer_info_pb.addrs]
														
 
															+        return PeerInfo(peer_id, addrs)
														
 
															+
														
 
															+    def __str__(self):
														
 
															+        return f"{self.peer_id.pretty()} {','.join(str(a) for a in self.addrs)}"
														
 
															+
														
 
															+
														
 
															+class InvalidAddrError(ValueError):
														
 
															+    pass
														
 
															+
														
 
															+
														
 
															+def info_from_p2p_addr(addr: Multiaddr) -> PeerInfo:
														
 
															+    if addr is None:
														
 
															+        raise InvalidAddrError("`addr` should not be `None`")
														
 
															+
														
 
															+    parts = addr.split()
														
 
															+    if not parts:
														
 
															+        raise InvalidAddrError(
														
 
															+            f"`parts`={parts} should at least have a protocol `P_P2P`"
														
 
															+        )
														
 
															+
														
 
															+    p2p_part = parts[-1]
														
 
															+    last_protocol_code = p2p_part.protocols()[0].code
														
 
															+    if last_protocol_code != protocols.P_P2P:
														
 
															+        raise InvalidAddrError(
														
 
															+            f"The last protocol should be `P_P2P` instead of `{last_protocol_code}`"
														
 
															+        )
														
 
															+
														
 
															+    # make sure the /p2p value parses as a peer.ID
														
 
															+    peer_id_str: str = p2p_part.value_for_protocol(protocols.P_P2P)
														
 
															+    peer_id = PeerID.from_base58(peer_id_str)
														
 
															+
														
 
															+    # we might have received just an / p2p part, which means there's no addr.
														
 
															+    if len(parts) > 1:
														
 
															+        addr = Multiaddr.join(*parts[:-1])
														
 
															+
														
 
															+    return PeerInfo(peer_id, [addr])
														
--- a/hivemind/p2p/p2p_daemon_bindings/p2pclient.py
+++ b/hivemind/p2p/p2p_daemon_bindings/p2pclient.py
@@ -0,0 +1,85 @@
 
															+"""
														
 
															+Originally taken from: https://github.com/mhchia/py-libp2p-daemon-bindings
														
 
															+Licence: MIT
														
 
															+Author: Kevin Mai-Husan Chia
														
 
															+"""
														
 
															+
														
 
															+import asyncio
														
 
															+from contextlib import asynccontextmanager
														
 
															+from typing import AsyncIterator, Iterable, Sequence, Tuple
														
 
															+
														
 
															+from multiaddr import Multiaddr
														
 
															+
														
 
															+from hivemind.p2p.p2p_daemon_bindings.control import (ControlClient,
														
 
															+                                                      DaemonConnector,
														
 
															+                                                      StreamHandler)
														
 
															+from hivemind.p2p.p2p_daemon_bindings.datastructures import (PeerID, PeerInfo,
														
 
															+                                                             StreamInfo)
														
 
															+
														
 
															+
														
 
															+class Client:
														
 
															+    control: ControlClient
														
 
															+
														
 
															+    def __init__(
														
 
															+        self, control_maddr: Multiaddr = None, listen_maddr: Multiaddr = None
														
 
															+    ) -> None:
														
 
															+        daemon_connector = DaemonConnector(control_maddr=control_maddr)
														
 
															+        self.control = ControlClient(
														
 
															+            daemon_connector=daemon_connector, listen_maddr=listen_maddr
														
 
															+        )
														
 
															+
														
 
															+    @asynccontextmanager
														
 
															+    async def listen(self) -> AsyncIterator["Client"]:
														
 
															+        """
														
 
															+        Starts to listen incoming connections for handlers registered via stream_handler.
														
 
															+        :return:
														
 
															+        """
														
 
															+        async with self.control.listen():
														
 
															+            yield self
														
 
															+
														
 
															+    async def identify(self) -> Tuple[PeerID, Tuple[Multiaddr, ...]]:
														
 
															+        """
														
 
															+        Get current node peer id and list of addresses
														
 
															+        """
														
 
															+        return await self.control.identify()
														
 
															+
														
 
															+    async def connect(self, peer_id: PeerID, maddrs: Iterable[Multiaddr]) -> None:
														
 
															+        """
														
 
															+        Connect to p2p node with specified addresses and peer id.
														
 
															+        :peer_id: node peer id you want connect to
														
 
															+        :maddrs: node multiaddresses you want connect to. Of course, it must be reachable.
														
 
															+        """
														
 
															+        await self.control.connect(peer_id=peer_id, maddrs=maddrs)
														
 
															+
														
 
															+    async def list_peers(self) -> Tuple[PeerInfo, ...]:
														
 
															+        """
														
 
															+        Get list of peers that node connect to
														
 
															+        """
														
 
															+        return await self.control.list_peers()
														
 
															+
														
 
															+    async def disconnect(self, peer_id: PeerID) -> None:
														
 
															+        """
														
 
															+        Disconnect from node with specified peer id
														
 
															+        :peer_id: node peer id you want disconnect from
														
 
															+        """
														
 
															+        await self.control.disconnect(peer_id=peer_id)
														
 
															+
														
 
															+    async def stream_open(
														
 
															+        self, peer_id: PeerID, protocols: Sequence[str]
														
 
															+    ) -> Tuple[StreamInfo, asyncio.StreamReader, asyncio.StreamWriter]:
														
 
															+        """
														
 
															+        Open a stream to call other peer (with peer_id) handler for specified protocols
														
 
															+        :peer_id: other peer id
														
 
															+        :protocols: list of protocols for other peer handling
														
 
															+        :return: Returns tuple of stream info (info about connection to second peer) and reader/writer
														
 
															+        """
														
 
															+        return await self.control.stream_open(peer_id=peer_id, protocols=protocols)
														
 
															+
														
 
															+    async def stream_handler(self, proto: str, handler_cb: StreamHandler) -> None:
														
 
															+        """
														
 
															+        Register a stream handler
														
 
															+        :param proto: protocols that handler serves
														
 
															+        :param handler_cb: handler callback
														
 
															+        :return:
														
 
															+        """
														
 
															+        await self.control.stream_handler(proto=proto, handler_cb=handler_cb)
														
--- a/hivemind/p2p/p2p_daemon_bindings/utils.py
+++ b/hivemind/p2p/p2p_daemon_bindings/utils.py
@@ -0,0 +1,73 @@
 
															+"""
														
 
															+Originally taken from: https://github.com/mhchia/py-libp2p-daemon-bindings
														
 
															+Licence: MIT
														
 
															+Author: Kevin Mai-Husan Chia
														
 
															+"""
														
 
															+
														
 
															+import asyncio
														
 
															+
														
 
															+from google.protobuf.message import Message as PBMessage
														
 
															+
														
 
															+from hivemind.proto import p2pd_pb2 as p2pd_pb
														
 
															+
														
 
															+DEFAULT_MAX_BITS: int = 64
														
 
															+
														
 
															+
														
 
															+class ControlFailure(Exception):
														
 
															+    pass
														
 
															+
														
 
															+
														
 
															+class DispatchFailure(Exception):
														
 
															+    pass
														
 
															+
														
 
															+
														
 
															+async def write_unsigned_varint(stream: asyncio.StreamWriter, integer: int, max_bits: int = DEFAULT_MAX_BITS) -> None:
														
 
															+    max_int = 1 << max_bits
														
 
															+    if integer < 0:
														
 
															+        raise ValueError(f"negative integer: {integer}")
														
 
															+    if integer >= max_int:
														
 
															+        raise ValueError(f"integer too large: {integer}")
														
 
															+    while True:
														
 
															+        value = integer & 0x7F
														
 
															+        integer >>= 7
														
 
															+        if integer != 0:
														
 
															+            value |= 0x80
														
 
															+        byte = value.to_bytes(1, "big")
														
 
															+        stream.write(byte)
														
 
															+        if integer == 0:
														
 
															+            break
														
 
															+
														
 
															+
														
 
															+async def read_unsigned_varint(stream: asyncio.StreamReader, max_bits: int = DEFAULT_MAX_BITS) -> int:
														
 
															+    max_int = 1 << max_bits
														
 
															+    iteration = 0
														
 
															+    result = 0
														
 
															+    has_next = True
														
 
															+    while has_next:
														
 
															+        data = await stream.readexactly(1)
														
 
															+        c = data[0]
														
 
															+        value = c & 0x7F
														
 
															+        result |= value << (iteration * 7)
														
 
															+        has_next = (c & 0x80) != 0
														
 
															+        iteration += 1
														
 
															+        if result >= max_int:
														
 
															+            raise ValueError(f"Varint overflowed: {result}")
														
 
															+    return result
														
 
															+
														
 
															+
														
 
															+def raise_if_failed(response: p2pd_pb.Response) -> None:
														
 
															+    if response.type == p2pd_pb.Response.ERROR:
														
 
															+        raise ControlFailure(f"Connect failed. msg={response.error.msg}")
														
 
															+
														
 
															+
														
 
															+async def write_pbmsg(stream: asyncio.StreamWriter, pbmsg: PBMessage) -> None:
														
 
															+    size = pbmsg.ByteSize()
														
 
															+    await write_unsigned_varint(stream, size)
														
 
															+    msg_bytes: bytes = pbmsg.SerializeToString()
														
 
															+    stream.write(msg_bytes)
														
 
															+
														
 
															+
														
 
															+async def read_pbmsg_safe(stream: asyncio.StreamReader, pbmsg: PBMessage) -> None:
														
 
															+    len_msg_bytes = await read_unsigned_varint(stream)
														
 
															+    msg_bytes = await stream.readexactly(len_msg_bytes)
														
 
															+    pbmsg.ParseFromString(msg_bytes)
														
--- a/hivemind/proto/averaging.proto
+++ b/hivemind/proto/averaging.proto
@@ -43,7 +43,7 @@ message MessageFromLeader {
 
															   bytes group_id = 2;        // a unique identifier of this group, only valid until allreduce is finished/failed
														
 
															   string suggested_leader = 3;  // if peer is already in a group, it'll provide us with an endpoint of its leader
														
 
															   repeated string ordered_group_endpoints = 4;  // a sequence of peers, each responsible for one shard during averaging
														
 
															-  repeated bytes gathered = 5;  // metadata (gather) from all groupmates in the same order as their endoints
														
 
															+  repeated bytes gathered = 5;  // metadata (gather) from all groupmates in the same order as their endpoints
														
 
															 }
														
 
															 message AveragingData {
														
--- a/hivemind/proto/p2pd.proto
+++ b/hivemind/proto/p2pd.proto
@@ -0,0 +1,166 @@
 
															+//Originally taken from: https://github.com/mhchia/py-libp2p-daemon-bindings
														
 
															+//Licence: MIT
														
 
															+//Author: Kevin Mai-Husan Chia
														
 
															+
														
 
															+syntax = "proto2";
														
 
															+
														
 
															+package p2pclient.p2pd.pb;
														
 
															+
														
 
															+message Request {
														
 
															+  enum Type {
														
 
															+    IDENTIFY       = 0;
														
 
															+    CONNECT        = 1;
														
 
															+    STREAM_OPEN    = 2;
														
 
															+    STREAM_HANDLER = 3;
														
 
															+    DHT            = 4;
														
 
															+    LIST_PEERS     = 5;
														
 
															+    CONNMANAGER    = 6;
														
 
															+    DISCONNECT     = 7;
														
 
															+    PUBSUB         = 8;
														
 
															+  }
														
 
															+
														
 
															+  required Type type = 1;
														
 
															+
														
 
															+  optional ConnectRequest connect = 2;
														
 
															+  optional StreamOpenRequest streamOpen = 3;
														
 
															+  optional StreamHandlerRequest streamHandler = 4;
														
 
															+  optional DHTRequest dht = 5;
														
 
															+  optional ConnManagerRequest connManager = 6;
														
 
															+  optional DisconnectRequest disconnect = 7;
														
 
															+  optional PSRequest pubsub = 8;
														
 
															+}
														
 
															+
														
 
															+message Response {
														
 
															+  enum Type {
														
 
															+    OK    = 0;
														
 
															+    ERROR = 1;
														
 
															+  }
														
 
															+
														
 
															+  required Type type = 1;
														
 
															+  optional ErrorResponse error = 2;
														
 
															+  optional StreamInfo streamInfo = 3;
														
 
															+  optional IdentifyResponse identify = 4;
														
 
															+  optional DHTResponse dht = 5;
														
 
															+  repeated PeerInfo peers = 6;
														
 
															+  optional PSResponse pubsub = 7;
														
 
															+}
														
 
															+
														
 
															+message IdentifyResponse {
														
 
															+  required bytes id = 1;
														
 
															+  repeated bytes addrs = 2;
														
 
															+}
														
 
															+
														
 
															+message ConnectRequest {
														
 
															+  required bytes peer = 1;
														
 
															+  repeated bytes addrs = 2;
														
 
															+  optional int64 timeout = 3;
														
 
															+}
														
 
															+
														
 
															+message StreamOpenRequest {
														
 
															+  required bytes peer = 1;
														
 
															+  repeated string proto = 2;
														
 
															+  optional int64 timeout = 3;
														
 
															+}
														
 
															+
														
 
															+message StreamHandlerRequest {
														
 
															+  required bytes addr = 1;
														
 
															+  repeated string proto = 2;
														
 
															+}
														
 
															+
														
 
															+message ErrorResponse {
														
 
															+  required string msg = 1;
														
 
															+}
														
 
															+
														
 
															+message StreamInfo {
														
 
															+  required bytes peer = 1;
														
 
															+  required bytes addr = 2;
														
 
															+  required string proto = 3;
														
 
															+}
														
 
															+
														
 
															+message DHTRequest {
														
 
															+  enum Type {
														
 
															+    FIND_PEER                    = 0;
														
 
															+    FIND_PEERS_CONNECTED_TO_PEER = 1;
														
 
															+    FIND_PROVIDERS               = 2;
														
 
															+    GET_CLOSEST_PEERS            = 3;
														
 
															+    GET_PUBLIC_KEY               = 4;
														
 
															+    GET_VALUE                    = 5;
														
 
															+    SEARCH_VALUE                 = 6;
														
 
															+    PUT_VALUE                    = 7;
														
 
															+    PROVIDE                      = 8;
														
 
															+  }
														
 
															+
														
 
															+  required Type type = 1;
														
 
															+  optional bytes peer = 2;
														
 
															+  optional bytes cid = 3;
														
 
															+  optional bytes key = 4;
														
 
															+  optional bytes value = 5;
														
 
															+  optional int32 count = 6;
														
 
															+  optional int64 timeout = 7;
														
 
															+}
														
 
															+
														
 
															+message DHTResponse {
														
 
															+  enum Type {
														
 
															+    BEGIN = 0;
														
 
															+    VALUE = 1;
														
 
															+    END   = 2;
														
 
															+  }
														
 
															+
														
 
															+  required Type type = 1;
														
 
															+  optional PeerInfo peer = 2;
														
 
															+  optional bytes value = 3;
														
 
															+}
														
 
															+
														
 
															+message PeerInfo {
														
 
															+  required bytes id = 1;
														
 
															+  repeated bytes addrs = 2;
														
 
															+}
														
 
															+
														
 
															+message ConnManagerRequest {
														
 
															+  enum Type {
														
 
															+    TAG_PEER        = 0;
														
 
															+    UNTAG_PEER      = 1;
														
 
															+    TRIM            = 2;
														
 
															+  }
														
 
															+
														
 
															+  required Type type = 1;
														
 
															+
														
 
															+  optional bytes peer = 2;
														
 
															+  optional string tag = 3;
														
 
															+  optional int64 weight = 4;
														
 
															+}
														
 
															+
														
 
															+message DisconnectRequest {
														
 
															+  required bytes peer = 1;
														
 
															+}
														
 
															+
														
 
															+message PSRequest {
														
 
															+  enum Type {
														
 
															+    GET_TOPICS = 0;
														
 
															+    LIST_PEERS = 1;
														
 
															+    PUBLISH    = 2;
														
 
															+    SUBSCRIBE  = 3;
														
 
															+  }
														
 
															+
														
 
															+  required Type type = 1;
														
 
															+  optional string topic = 2;
														
 
															+  optional bytes data = 3;
														
 
															+}
														
 
															+
														
 
															+message PSMessage {
														
 
															+  optional bytes from_id = 1;
														
 
															+  optional bytes data = 2;
														
 
															+  optional bytes seqno = 3;
														
 
															+  repeated string topicIDs = 4;
														
 
															+  optional bytes signature = 5;
														
 
															+  optional bytes key = 6;
														
 
															+}
														
 
															+
														
 
															+message PSResponse {
														
 
															+  repeated string topics = 1;
														
 
															+  repeated bytes peerIDs = 2;
														
 
															+}
														
 
															+
														
 
															+message RPCError {
														
 
															+  required string message = 1;
														
 
															+}
														
--- a/hivemind/server/runtime.py
+++ b/hivemind/server/runtime.py
@@ -118,7 +118,7 @@ class Runtime(threading.Thread):
 
															         with DefaultSelector() as selector:
														
 
															             for pool in self.pools:
														
 
															                 selector.register(pool.batch_receiver, EVENT_READ, pool)
														
 
															-            # selector.register(self.shutdown_recv, EVENT_READ, self.SHUTDOWN_TRIGGER)
														
 
															+            selector.register(self.shutdown_recv, EVENT_READ, self.SHUTDOWN_TRIGGER)
														
 
															             while True:
														
 
															                 # wait until at least one batch_receiver becomes available
														
--- a/hivemind/utils/asyncio.py
+++ b/hivemind/utils/asyncio.py
@@ -1,7 +1,14 @@
 
															-from typing import TypeVar, AsyncIterator, Union, AsyncIterable, Awaitable
														
 
															+from concurrent.futures import ThreadPoolExecutor
														
 
															+from typing import TypeVar, AsyncIterator, Union, AsyncIterable, Awaitable, Tuple, Optional, Callable
														
 
															 import asyncio
														
 
															+
														
 
															 import uvloop
														
 
															+
														
 
															+from hivemind.utils.logging import get_logger
														
 
															+
														
 
															+
														
 
															 T = TypeVar('T')
														
 
															+logger = get_logger(__name__)
														
 
															 def switch_to_uvloop() -> asyncio.AbstractEventLoop:
														
@@ -27,6 +34,16 @@ async def aiter(*args: T) -> AsyncIterator[T]:
 
															         yield arg
														
 
															+async def azip(*iterables: AsyncIterable[T]) -> AsyncIterator[Tuple[T, ...]]:
														
 
															+    """ equivalent of zip for asynchronous iterables """
														
 
															+    iterators = [iterable.__aiter__() for iterable in iterables]
														
 
															+    while True:
														
 
															+        try:
														
 
															+            yield tuple(await asyncio.gather(*(itr.__anext__() for itr in iterators)))
														
 
															+        except StopAsyncIteration:
														
 
															+            break
														
 
															+
														
 
															+
														
 
															 async def achain(*async_iters: AsyncIterable[T]) -> AsyncIterator[T]:
														
 
															     """ equivalent to chain(iter1, iter2, ...) for asynchronous iterators. """
														
 
															     for aiter in async_iters:
														
@@ -34,6 +51,14 @@ async def achain(*async_iters: AsyncIterable[T]) -> AsyncIterator[T]:
 
															             yield elem
														
 
															+async def aenumerate(aiterable: AsyncIterable[T]) -> AsyncIterable[Tuple[int, T]]:
														
 
															+    """ equivalent to enumerate(iter) for asynchronous iterators. """
														
 
															+    index = 0
														
 
															+    async for elem in aiterable:
														
 
															+        yield index, elem
														
 
															+        index += 1
														
 
															+
														
 
															+
														
 
															 async def await_cancelled(awaitable: Awaitable) -> bool:
														
 
															     try:
														
 
															         await awaitable
														
@@ -42,3 +67,26 @@ async def await_cancelled(awaitable: Awaitable) -> bool:
 
															         return True
														
 
															     except BaseException:
														
 
															         return False
														
 
															+
														
 
															+
														
 
															+async def amap_in_executor(func: Callable[..., T], *iterables: AsyncIterable, max_prefetch: Optional[int] = None,
														
 
															+                           executor: Optional[ThreadPoolExecutor] = None) -> AsyncIterator[T]:
														
 
															+    """ iterate from an async iterable in a background thread, yield results to async iterable """
														
 
															+    loop = asyncio.get_event_loop()
														
 
															+    queue = asyncio.Queue(max_prefetch)
														
 
															+
														
 
															+    async def _put_items():
														
 
															+        async for args in azip(*iterables):
														
 
															+            await queue.put(loop.run_in_executor(executor, func, *args))
														
 
															+        await queue.put(None)
														
 
															+
														
 
															+    task = asyncio.create_task(_put_items())
														
 
															+    try:
														
 
															+        future = await queue.get()
														
 
															+        while future is not None:
														
 
															+            yield await future
														
 
															+            future = await queue.get()
														
 
															+        await task
														
 
															+    finally:
														
 
															+        if not task.done():
														
 
															+            task.cancel()
														
--- a/hivemind/utils/compression.py
+++ b/hivemind/utils/compression.py
@@ -8,7 +8,7 @@ from hivemind.proto import runtime_pb2
 
															 from hivemind.proto.runtime_pb2 import CompressionType
														
 
															 from hivemind.utils.threading import run_in_background
														
 
															-FP16_MAX = 65_504
														
 
															+FP32_EPS = 1e-06
														
 
															 NUM_BYTES_FLOAT32 = 4
														
 
															 NUM_BYTES_FLOAT16 = 2
														
 
															 NUM_BITS_QUANTILE_COMPRESSION = 8
														
@@ -86,6 +86,7 @@ def serialize_torch_tensor(tensor: torch.Tensor, compression_type=CompressionTyp
 
															         tensor.sub_(means)
														
 
															         stds = torch.square(tensor).sum(dim=-1, keepdim=True).div_(tensor.shape[-1]).sqrt_()
														
 
															+        stds.clamp_min_(FP32_EPS)
														
 
															         tensor.div_(stds)
														
 
															         tensor = tensor.clamp_(-FP16_MAX, FP16_MAX).to(torch.float16)
														
@@ -187,3 +188,15 @@ def deserialize_torch_tensor(serialized_tensor: runtime_pb2.Tensor) -> torch.Ten
 
															     tensor.requires_grad_(serialized_tensor.requires_grad)
														
 
															     return tensor
														
 
															+
														
 
															+
														
 
															+def get_nbytes_per_value(dtype: torch.dtype, compression: CompressionType) -> int:
														
 
															+    """ returns the number of bytes per value for a given tensor (excluding metadata) """
														
 
															+    if compression in (CompressionType.QUANTILE_8BIT, CompressionType.UNIFORM_8BIT):
														
 
															+        return 1
														
 
															+    elif compression in (CompressionType.FLOAT16, CompressionType.MEANSTD_16BIT):
														
 
															+        return 2
														
 
															+    elif compression == CompressionType.NONE:
														
 
															+        return torch.finfo(dtype).bits // 8
														
 
															+    else:
														
 
															+        raise NotImplementedError(f"Unknown compression type: {CompressionType.Name(compression)}")
														
--- a/hivemind/utils/grpc.py
+++ b/hivemind/utils/grpc.py
@@ -158,7 +158,11 @@ class ChannelCache(TimedStorage[ChannelInfo, Tuple[Union[grpc.Channel, grpc.aio.
 
															         raise ValueError(f"Please use {self.__class__.__name__}.get_stub to get or create stubs")
														
 
															-def split_for_streaming(serialized_tensor: runtime_pb2.Tensor, chunk_size_bytes: int) -> Iterator[runtime_pb2.Tensor]:
														
 
															+STREAMING_CHUNK_SIZE_BYTES = 2 ** 16
														
 
															+
														
 
															+
														
 
															+def split_for_streaming(serialized_tensor: runtime_pb2.Tensor, chunk_size_bytes: int = STREAMING_CHUNK_SIZE_BYTES,
														
 
															+                        ) -> Iterator[runtime_pb2.Tensor]:
														
 
															     """ Split serialized_tensor into multiple chunks for gRPC streaming """
														
 
															     buffer = memoryview(serialized_tensor.buffer)
														
 
															     num_chunks = len(range(0, len(buffer), chunk_size_bytes))
														
--- a/hivemind/utils/threading.py
+++ b/hivemind/utils/threading.py
@@ -12,7 +12,7 @@ def run_in_background(func: callable, *args, **kwargs) -> Future:
 
															     """ run func(*args, **kwargs) in background and return Future for its outputs """
														
 
															     global EXECUTOR_PID, GLOBAL_EXECUTOR
														
 
															     if os.getpid() != EXECUTOR_PID:
														
 
															-        GLOBAL_EXECUTOR = ThreadPoolExecutor(max_workers=float(os.environ.get("HIVEMIND_THREADS", 'inf')))
														
 
															+        GLOBAL_EXECUTOR = ThreadPoolExecutor(max_workers=int(os.environ.get("HIVEMIND_THREADS", 128)))
														
 
															         EXECUTOR_PID = os.getpid()
														
 
															     return GLOBAL_EXECUTOR.submit(func, *args, **kwargs)
														
--- a/requirements-dev.txt
+++ b/requirements-dev.txt
@@ -1,6 +1,7 @@
 
															 pytest
														
 
															 pytest-forked
														
 
															 pytest-asyncio
														
 
															+pytest-cov
														
 
															 codecov
														
 
															 tqdm
														
 
															 scikit-learn
														
--- a/requirements.txt
+++ b/requirements.txt
@@ -10,5 +10,7 @@ grpcio>=1.33.2
 
															 grpcio-tools>=1.33.2
														
 
															 protobuf>=3.12.2
														
 
															 configargparse>=1.2.3
														
 
															+multiaddr>=0.0.9
														
 
															+pymultihash>=0.8.2
														
 
															 cryptography>=3.4.6
														
 
															 pydantic>=1.8.1
														
--- a/setup.py
+++ b/setup.py
@@ -1,12 +1,32 @@
 
															 import codecs
														
 
															 import glob
														
 
															+import hashlib
														
 
															 import os
														
 
															 import re
														
 
															-
														
 
															-from pkg_resources import parse_requirements
														
 
															-from setuptools import setup, find_packages
														
 
															+import shlex
														
 
															+import subprocess
														
 
															+import tarfile
														
 
															+import tempfile
														
 
															+import urllib.request
														
 
															+
														
 
															+from pkg_resources import parse_requirements, parse_version
														
 
															+from setuptools import find_packages, setup
														
 
															+from setuptools.command.build_py import build_py
														
 
															 from setuptools.command.develop import develop
														
 
															-from setuptools.command.install import install
														
 
															+
														
 
															+P2PD_VERSION = 'v0.3.1'
														
 
															+P2PD_CHECKSUM = '15292b880c6b31f5b3c36084b3acc17f'
														
 
															+LIBP2P_TAR_URL = f'https://github.com/learning-at-home/go-libp2p-daemon/archive/refs/tags/{P2PD_VERSION}.tar.gz'
														
 
															+
														
 
															+here = os.path.abspath(os.path.dirname(__file__))
														
 
															+
														
 
															+
														
 
															+def md5(fname, chunk_size=4096):
														
 
															+    hash_md5 = hashlib.md5()
														
 
															+    with open(fname, "rb") as f:
														
 
															+        for chunk in iter(lambda: f.read(chunk_size), b""):
														
 
															+            hash_md5.update(chunk)
														
 
															+    return hash_md5.hexdigest()
														
 
															 def proto_compile(output_path):
														
@@ -28,20 +48,68 @@ def proto_compile(output_path):
 
															             file.truncate()
														
 
															-class ProtoCompileInstall(install):
														
 
															+def build_p2p_daemon():
														
 
															+    result = subprocess.run("go version", capture_output=True, shell=True).stdout.decode('ascii', 'replace')
														
 
															+    m = re.search(r'^go version go([\d.]+)', result)
														
 
															+
														
 
															+    if m is None:
														
 
															+        raise FileNotFoundError('Could not find golang installation')
														
 
															+    version = parse_version(m.group(1))
														
 
															+    if version < parse_version("1.13"):
														
 
															+        raise EnvironmentError(f'Newer version of go required: must be >= 1.13, found {version}')
														
 
															+
														
 
															+    with tempfile.TemporaryDirectory() as tempdir:
														
 
															+        dest = os.path.join(tempdir, 'libp2p-daemon.tar.gz')
														
 
															+        urllib.request.urlretrieve(LIBP2P_TAR_URL, dest)
														
 
															+
														
 
															+        with tarfile.open(dest, 'r:gz') as tar:
														
 
															+            tar.extractall(tempdir)
														
 
															+
														
 
															+        result = subprocess.run(f'go build -o {shlex.quote(os.path.join(here, "hivemind", "hivemind_cli", "p2pd"))}',
														
 
															+                                cwd=os.path.join(tempdir, f'go-libp2p-daemon-{P2PD_VERSION[1:]}', 'p2pd'), shell=True)
														
 
															+
														
 
															+        if result.returncode:
														
 
															+            raise RuntimeError('Failed to build or install libp2p-daemon:'
														
 
															+                               f' exited with status code: {result.returncode}')
														
 
															+
														
 
															+
														
 
															+def download_p2p_daemon():
														
 
															+    install_path = os.path.join(here, 'hivemind', 'hivemind_cli')
														
 
															+    binary_path = os.path.join(install_path, 'p2pd')
														
 
															+    if not os.path.exists(binary_path) or md5(binary_path) != P2PD_CHECKSUM:
														
 
															+        print('Downloading Peer to Peer Daemon')
														
 
															+        url = f'https://github.com/learning-at-home/go-libp2p-daemon/releases/download/{P2PD_VERSION}/p2pd'
														
 
															+        urllib.request.urlretrieve(url, binary_path)
														
 
															+        os.chmod(binary_path, 0o777)
														
 
															+        if md5(binary_path) != P2PD_CHECKSUM:
														
 
															+            raise RuntimeError(f'Downloaded p2pd binary from {url} does not match with md5 checksum')
														
 
															+
														
 
															+
														
 
															+class BuildPy(build_py):
														
 
															+    user_options = build_py.user_options + [('buildgo', None, "Builds p2pd from source")]
														
 
															+
														
 
															+    def initialize_options(self):
														
 
															+        super().initialize_options()
														
 
															+        self.buildgo = False
														
 
															+
														
 
															     def run(self):
														
 
															-        proto_compile(os.path.join(self.build_lib, 'hivemind', 'proto'))
														
 
															+        if self.buildgo:
														
 
															+            build_p2p_daemon()
														
 
															+        else:
														
 
															+            download_p2p_daemon()
														
 
															+
														
 
															         super().run()
														
 
															+        proto_compile(os.path.join(self.build_lib, 'hivemind', 'proto'))
														
 
															+
														
 
															-class ProtoCompileDevelop(develop):
														
 
															+class Develop(develop):
														
 
															     def run(self):
														
 
															-        proto_compile(os.path.join('hivemind', 'proto'))
														
 
															+        self.reinitialize_command('build_py', build_lib=here)
														
 
															+        self.run_command('build_py')
														
 
															         super().run()
														
 
															-here = os.path.abspath(os.path.dirname(__file__))
														
 
															-
														
 
															 with open('requirements.txt') as requirements_file:
														
 
															     install_requires = list(map(str, parse_requirements(requirements_file)))
														
@@ -63,7 +131,7 @@ extras['all'] = extras['dev'] + extras['docs']
 
															 setup(
														
 
															     name='hivemind',
														
 
															     version=version_string,
														
 
															-    cmdclass={'install': ProtoCompileInstall, 'develop': ProtoCompileDevelop},
														
 
															+    cmdclass={'build_py': BuildPy, 'develop': Develop},
														
 
															     description='Decentralized deep learning in PyTorch',
														
 
															     long_description='Decentralized deep learning in PyTorch. Built to train giant models on '
														
 
															                      'thousands of volunteers across the world.',
														
@@ -71,7 +139,7 @@ setup(
 
															     author_email='mryabinin0@gmail.com',
														
 
															     url="https://github.com/learning-at-home/hivemind",
														
 
															     packages=find_packages(exclude=['tests']),
														
 
															-    package_data={'hivemind': ['proto/*']},
														
 
															+    package_data={'hivemind': ['proto/*', 'hivemind_cli/*']},
														
 
															     include_package_data=True,
														
 
															     license='MIT',
														
 
															     setup_requires=['grpcio-tools'],
														
--- a/tests/test_allreduce.py
+++ b/tests/test_allreduce.py
@@ -0,0 +1,217 @@
 
															+import asyncio
														
 
															+import random
														
 
															+import time
														
 
															+from typing import Sequence
														
 
															+
														
 
															+import pytest
														
 
															+import torch
														
 
															+import grpc
														
 
															+
														
 
															+from hivemind import aenumerate, Endpoint
														
 
															+from hivemind.client.averaging.allreduce import AllReduceRunner, AveragingMode
														
 
															+from hivemind.client.averaging.partition import TensorPartContainer, TensorPartReducer
														
 
															+from hivemind.utils import deserialize_torch_tensor, ChannelCache
														
 
															+from hivemind.proto.runtime_pb2 import CompressionType
														
 
															+from hivemind.proto import averaging_pb2_grpc
														
 
															+
														
 
															+
														
 
															+@pytest.mark.forked
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_partitioning():
														
 
															+    all_tensors = [
														
 
															+        torch.randn(30_000, 128), torch.rand(128), torch.ones(1, 1, 1, 1, 1, 1, 8),
														
 
															+        torch.ones(1, 0), torch.zeros(0), torch.zeros([]), torch.randn(65536),
														
 
															+        torch.rand(512, 2048), torch.randn(1024, 1024).add(-9), torch.zeros(1020), torch.randn(4096)
														
 
															+    ]
														
 
															+
														
 
															+    # note: this test does _not_ use parameterization to reuse sampled tensors
														
 
															+    for num_tensors in 1, 3, 5:
														
 
															+        for part_size_bytes in 31337, 2 ** 20, 10 ** 10:
														
 
															+            for weights in [(1, 1), (0.333, 0.1667, 0.5003), (1.0, 0.0), [0.0, 0.4, 0.6, 0.0]]:
														
 
															+                tensors = random.choices(all_tensors, k=num_tensors)
														
 
															+                partition = TensorPartContainer(tensors, weights, part_size_bytes=part_size_bytes)
														
 
															+
														
 
															+                async def write_tensors():
														
 
															+                    for peer_index in range(partition.group_size):
														
 
															+                        async for part_index, part in aenumerate(partition.iterate_input_parts_for(peer_index)):
														
 
															+                            output_tensor = torch.sin(deserialize_torch_tensor(part))
														
 
															+                            partition.register_processed_part(peer_index, part_index, output_tensor)
														
 
															+
														
 
															+                task = asyncio.create_task(write_tensors())
														
 
															+                tensor_index = 0
														
 
															+                async for output_tensor in partition.iterate_output_tensors():
														
 
															+                    assert torch.allclose(output_tensor, torch.sin(tensors[tensor_index]))
														
 
															+                    tensor_index += 1
														
 
															+                assert tensor_index == len(tensors)
														
 
															+                await task
														
 
															+
														
 
															+
														
 
															+@pytest.mark.parametrize("tensors", [[torch.zeros(0)], [torch.zeros(0), torch.zeros(0), torch.zeros(1)],
														
 
															+                                     [torch.zeros(0), torch.zeros(999), torch.zeros(0), torch.zeros(0)]])
														
 
															+@pytest.mark.parametrize("peer_fractions", [(0.33, 0.44, 0.23), (0.5, 0.5), (0.1, 0.0, 0.9), (1.0,), (0.1,) * 9])
														
 
															+@pytest.mark.forked
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_partitioning_edge_cases(tensors: Sequence[torch.Tensor], peer_fractions: Sequence[float]):
														
 
															+    partition = TensorPartContainer(tensors, peer_fractions, part_size_bytes=16)
														
 
															+    for peer_index in range(len(peer_fractions)):
														
 
															+        async for part_index, part in aenumerate(partition.iterate_input_parts_for(peer_index)):
														
 
															+            partition.register_processed_part(peer_index, part_index, deserialize_torch_tensor(part))
														
 
															+
														
 
															+    tensor_index = 0
														
 
															+    async for output_tensor in partition.iterate_output_tensors():
														
 
															+        assert torch.allclose(output_tensor, tensors[tensor_index])
														
 
															+        tensor_index += 1
														
 
															+
														
 
															+
														
 
															+@pytest.mark.forked
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_partitioning_asynchronous():
														
 
															+    """ ensure that tensor partitioning does not interfere with asynchronous code """
														
 
															+    tensors = [torch.randn(2048, 2048), torch.randn(1024, 4096),
														
 
															+               torch.randn(4096, 1024), torch.randn(30_000, 1024)]
														
 
															+    peer_fractions = [0.4, 0.3, 0.2, 0.1]
														
 
															+
														
 
															+    partition = TensorPartContainer(tensors, peer_fractions, compression_type=CompressionType.QUANTILE_8BIT)
														
 
															+    read_started, read_finished = asyncio.Event(), asyncio.Event()
														
 
															+
														
 
															+    async def write_tensors():
														
 
															+        for peer_index in range(partition.group_size):
														
 
															+            async for part_index, part in aenumerate(partition.iterate_input_parts_for(peer_index)):
														
 
															+                partition.register_processed_part(peer_index, part_index, deserialize_torch_tensor(part))
														
 
															+        assert read_started.is_set(), "partitioner should have started reading before it finished writing"
														
 
															+
														
 
															+    async def read_tensors():
														
 
															+        async for _ in partition.iterate_output_tensors():
														
 
															+            read_started.set()
														
 
															+        read_finished.set()
														
 
															+
														
 
															+    async def wait_synchronously():
														
 
															+        time_in_waiting = 0.0
														
 
															+        while not read_finished.is_set():
														
 
															+            await asyncio.sleep(0.01)
														
 
															+            time_in_waiting += 0.01
														
 
															+        return time_in_waiting
														
 
															+
														
 
															+    start_time = time.perf_counter()
														
 
															+    *_, time_in_waiting = await asyncio.gather(write_tensors(), read_tensors(), wait_synchronously())
														
 
															+    wall_time = time.perf_counter() - start_time
														
 
															+    # check that event loop had enough time to respond to incoming requests; this is over 50% most of the time
														
 
															+    # we set 33% threshold to ensure that the test will pass reliably. If we break prefetch, this drops to <10%
														
 
															+    assert time_in_waiting > wall_time / 3, f"Event loop could only run {time_in_waiting / wall_time :.5f} of the time"
														
 
															+
														
 
															+
														
 
															+@pytest.mark.parametrize("num_senders", [1, 2, 4, 10])
														
 
															+@pytest.mark.parametrize("num_parts", [0, 1, 100])
														
 
															+@pytest.mark.parametrize("synchronize_prob", [1.0, 0.1, 0.0])
														
 
															+@pytest.mark.forked
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_reducer(num_senders: int, num_parts: int, synchronize_prob: float):
														
 
															+    tensor_part_shapes = [torch.Size([i]) for i in range(num_parts)]
														
 
															+    reducer = TensorPartReducer(tensor_part_shapes, num_senders)
														
 
															+
														
 
															+    local_tensors_by_sender = [[torch.randn(i) for i in range(num_parts)]
														
 
															+                               for j in range(num_senders)]
														
 
															+
														
 
															+    async def send_tensors(sender_index: int):
														
 
															+        local_tensors = local_tensors_by_sender[sender_index]
														
 
															+        averaged_parts = []
														
 
															+        pending_tasks = []
														
 
															+
														
 
															+        for part_index in range(num_parts):
														
 
															+            pending_tasks.append(asyncio.create_task(
														
 
															+                reducer.accumulate_part(sender_index, part_index, local_tensors[part_index])))
														
 
															+
														
 
															+            if random.random() < synchronize_prob or part_index == num_parts - 1:
														
 
															+                averaged_parts.extend(await asyncio.gather(*pending_tasks))
														
 
															+                pending_tasks = []
														
 
															+        return averaged_parts
														
 
															+
														
 
															+    averaged_tensors_by_peer = await asyncio.gather(*map(send_tensors, range(num_senders)))
														
 
															+
														
 
															+    reference = [sum(local_tensors_by_sender[sender_index][part_index]
														
 
															+                     for sender_index in range(num_senders)) / num_senders
														
 
															+                 for part_index in range(num_parts)]
														
 
															+
														
 
															+    for averaged_tensors in averaged_tensors_by_peer:
														
 
															+        assert len(averaged_tensors) == len(reference)
														
 
															+        for averaging_result, reference_tensor in zip(averaged_tensors, reference):
														
 
															+            assert torch.allclose(averaging_result, reference_tensor, rtol=1e-3, atol=1e-5)
														
 
															+
														
 
															+
														
 
															+class AllreduceRunnerForTesting(AllReduceRunner):
														
 
															+    """ a version of AllReduceRunner that was monkey-patched to accept custom endpoint names """
														
 
															+    def __init__(self, *args, peer_endpoints, **kwargs):
														
 
															+        self.__peer_endpoints = peer_endpoints
														
 
															+        super().__init__(*args, **kwargs)
														
 
															+
														
 
															+    def _get_peer_stub(self, peer: Endpoint) -> averaging_pb2_grpc.DecentralizedAveragingStub:
														
 
															+        return ChannelCache.get_stub(
														
 
															+            self.__peer_endpoints[peer], averaging_pb2_grpc.DecentralizedAveragingStub, aio=True)
														
 
															+
														
 
															+
														
 
															+NODE, CLIENT, AUX = AveragingMode.NODE, AveragingMode.CLIENT, AveragingMode.AUX
														
 
															+
														
 
															+
														
 
															+@pytest.mark.parametrize("peer_modes, averaging_weights, peer_fractions", [
														
 
															+    ((NODE, NODE, NODE, NODE), (1, 1, 1, 1), (1, 1, 1, 1)),
														
 
															+    ((NODE, NODE, NODE, NODE), (0.1, 0.2, 0.3, 0.4), (1, 1, 1, 1)),
														
 
															+    ((NODE, NODE, NODE, NODE), (1, 1, 1, 1), (1, 2, 3, 0)),
														
 
															+    ((NODE, NODE, NODE, CLIENT), (1, 1, 1, 1), (1, 2, 3, 0)),
														
 
															+    ((NODE, NODE, NODE, AUX), (1, 1, 1, 0), (1, 2, 3, 4)),
														
 
															+    ((NODE, NODE, NODE, NODE), (0.15, 0.0, 0.35, 0.45), (1, 1, 1, 1)),
														
 
															+    ((NODE, AUX, NODE, CLIENT), (0.15, 0.0, 0.35, 0.45), (150, 200, 67, 0)),
														
 
															+    ((AUX, AUX, AUX, AUX), (0.0, 0.0, 0.0, 0.0), (1, 2, 3, 4)),
														
 
															+])
														
 
															+@pytest.mark.parametrize("part_size_bytes", [2 ** 20, 256, 19],)
														
 
															+@pytest.mark.forked
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_allreduce_protocol(peer_modes, averaging_weights, peer_fractions, part_size_bytes):
														
 
															+    """ Run group allreduce protocol manually without grpc, see if the internal logic is working as intended """
														
 
															+
														
 
															+    peers = "alice", "bob", "carol", "colab"
														
 
															+
														
 
															+    tensors_by_peer = {peer: [torch.randn(3, 128), torch.rand(32), torch.tensor(i, dtype=torch.float32)]
														
 
															+                       for i, peer in enumerate(peers)}
														
 
															+
														
 
															+    group_id = random.getrandbits(160).to_bytes(length=20, byteorder='big')
														
 
															+
														
 
															+    servers = []
														
 
															+    allreduce_protocols = []
														
 
															+    peer_endpoints = {}
														
 
															+
														
 
															+    for peer in peers:
														
 
															+        server = grpc.aio.server()
														
 
															+        allreduce_protocol = AllreduceRunnerForTesting(
														
 
															+            group_id=group_id, endpoint=peer, tensors=[x.clone() for x in tensors_by_peer[peer]],
														
 
															+            ordered_group_endpoints=peers, peer_fractions=peer_fractions, modes=peer_modes,
														
 
															+            weights=averaging_weights, peer_endpoints=peer_endpoints, part_size_bytes=part_size_bytes
														
 
															+        )
														
 
															+        averaging_pb2_grpc.add_DecentralizedAveragingServicer_to_server(allreduce_protocol, server)
														
 
															+        peer_endpoints[peer] = f"127.0.0.1:{server.add_insecure_port('127.0.0.1:*')}"
														
 
															+        allreduce_protocols.append(allreduce_protocol)
														
 
															+        servers.append(server)
														
 
															+        await server.start()
														
 
															+
														
 
															+    async def _run_allreduce_inplace(allreduce: AllReduceRunner):
														
 
															+        async for tensor_index, tensor_delta in aenumerate(allreduce):
														
 
															+            allreduce.tensor_part_container.local_tensors[tensor_index].add_(tensor_delta)
														
 
															+
														
 
															+    await asyncio.gather(*map(_run_allreduce_inplace, allreduce_protocols))
														
 
															+
														
 
															+    reference_tensors = [sum(tensors_by_peer[peer][i] * averaging_weights[peer_index]
														
 
															+                             for peer_index, peer in enumerate(peers)) / sum(averaging_weights)
														
 
															+                         for i in range(len(tensors_by_peer[peers[0]]))]
														
 
															+
														
 
															+    for peer_index, protocol in enumerate(allreduce_protocols):
														
 
															+        assert protocol._future.done()
														
 
															+        if protocol.modes[peer_index] != AveragingMode.AUX:
														
 
															+            targets_for_peer = reference_tensors
														
 
															+        else:
														
 
															+            targets_for_peer = tensors_by_peer[peers[peer_index]]
														
 
															+        output_tensors = protocol.tensor_part_container.local_tensors
														
 
															+        assert len(output_tensors) == len(targets_for_peer)
														
 
															+        assert all(torch.allclose(our, ref, atol=1e-6, rtol=0)
														
 
															+                   for our, ref in zip(output_tensors, targets_for_peer))
														
 
															+
														
 
															+    for server in servers:
														
 
															+        await server.stop(grace=1)
														
--- a/tests/test_auth.py
+++ b/tests/test_auth.py
@@ -1,12 +1,12 @@
 
															 from datetime import datetime, timedelta
														
 
															-from typing import Optional, Tuple
														
 
															+from typing import Optional
														
 
															 import pytest
														
 
															 from hivemind.proto import dht_pb2
														
 
															 from hivemind.proto.auth_pb2 import AccessToken
														
 
															 from hivemind.utils.auth import AuthRPCWrapper, AuthRole, TokenAuthorizerBase
														
 
															-from hivemind.utils.crypto import RSAPrivateKey, RSAPublicKey
														
 
															+from hivemind.utils.crypto import RSAPrivateKey
														
 
															 from hivemind.utils.logging import get_logger
														
--- a/tests/test_averaging.py
+++ b/tests/test_averaging.py
@@ -1,4 +1,3 @@
 
															-import asyncio
														
 
															 import random
														
 
															 import numpy as np
														
@@ -6,10 +5,10 @@ import torch
 
															 import pytest
														
 
															 import time
														
 
															 import hivemind
														
 
															-from hivemind.client.averaging.allreduce import AllReduceProtocol, split_into_parts, restore_from_parts
														
 
															+from hivemind.client.averaging.allreduce import AveragingMode
														
 
															 from hivemind.client.averaging.load_balancing import load_balance_peers
														
 
															 from hivemind.client.averaging.key_manager import GroupKeyManager
														
 
															-from hivemind.utils import Endpoint
														
 
															+from hivemind.proto.runtime_pb2 import CompressionType
														
 
															 @pytest.mark.forked
														
@@ -42,26 +41,26 @@ async def test_key_manager():
 
															     assert len(q5) == 0
														
 
															-@pytest.mark.forked
														
 
															-@pytest.mark.parametrize("n_client_mode_peers", [0, 2])
														
 
															-def test_allreduce_once(n_client_mode_peers):
														
 
															+def _test_allreduce_once(n_clients, n_aux):
														
 
															     dht = hivemind.DHT(start=True, endpoint=f'{hivemind.LOCALHOST}:*')
														
 
															     n_peers = 4
														
 
															-    should_listen = [False] * n_client_mode_peers + [True] * (n_peers - n_client_mode_peers)
														
 
															-    random.shuffle(should_listen)
														
 
															+    modes = [AveragingMode.CLIENT] * n_clients + [AveragingMode.AUX] * n_aux + [AveragingMode.NODE] * (n_peers - n_clients - n_aux)
														
 
															+    random.shuffle(modes)
														
 
															     tensors1 = [torch.randn(123), torch.zeros(3)]
														
 
															     tensors2 = [torch.rand(123), torch.ones(3)]
														
 
															     tensors3 = [-torch.rand(123), torch.arange(3).to(torch.float32)]
														
 
															     tensors4 = [torch.randn(123) ** 3, torch.arange(3).to(torch.float32) / 2]
														
 
															+    peer_tensors = [tensors1, tensors2, tensors3, tensors4]
														
 
															-    reference = [(tensors1[i] + tensors2[i] + tensors3[i] + tensors4[i]) / 4 for i in range(len(tensors1))]
														
 
															+    reference = [sum(tensors[i] for tensors, mode in zip(peer_tensors, modes)
														
 
															+                 if mode != AveragingMode.AUX) / max(1, n_peers - n_aux) for i in range(len(tensors1))]
														
 
															     averagers = [hivemind.DecentralizedAverager(tensors, dht=dht, target_group_size=4, averaging_expiration=15,
														
 
															-                                                prefix='mygroup', listen=listen, listen_on='127.0.0.1:*',
														
 
															-                                                start=True)
														
 
															-                 for tensors, listen in zip([tensors1, tensors2, tensors3, tensors4], should_listen)]
														
 
															+                                                prefix='mygroup', listen=mode != AveragingMode.CLIENT, listen_on='127.0.0.1:*',
														
 
															+                                                auxiliary=mode == AveragingMode.AUX, start=True)
														
 
															+                 for tensors, mode in zip(peer_tensors, modes)]
														
 
															     futures = []
														
 
															     for averager in averagers:
														
@@ -72,15 +71,29 @@ def test_allreduce_once(n_client_mode_peers):
 
															             assert averager.endpoint in result
														
 
															     for averager in averagers:
														
 
															-        with averager.get_tensors() as averaged_tensors:
														
 
															-            for ref, our in zip(reference, averaged_tensors):
														
 
															-                assert torch.allclose(ref, our, atol=1e-6)
														
 
															+        if averager.mode != AveragingMode.AUX:
														
 
															+            with averager.get_tensors() as averaged_tensors:
														
 
															+                for ref, our in zip(reference, averaged_tensors):
														
 
															+                    assert torch.allclose(ref, our, atol=1e-6)
														
 
															     for averager in averagers:
														
 
															         averager.shutdown()
														
 
															     dht.shutdown()
														
 
															+@pytest.mark.forked
														
 
															+@pytest.mark.parametrize("n_clients", [0, 1, 2])
														
 
															+@pytest.mark.parametrize("n_aux", [0, 1, 2])
														
 
															+def test_allreduce_once(n_clients, n_aux):
														
 
															+    _test_allreduce_once(n_clients, n_aux)
														
 
															+
														
 
															+
														
 
															+@pytest.mark.forked
														
 
															+@pytest.mark.parametrize("n_clients, n_aux", [(0, 4), (1, 3), (0, 3)])
														
 
															+def test_allreduce_once_edge_cases(n_clients, n_aux):
														
 
															+    _test_allreduce_once(n_clients, n_aux)
														
 
															+
														
 
															+
														
 
															 @pytest.mark.forked
														
 
															 def test_allreduce_weighted(n_client_mode_peers: int = 2):
														
 
															     dht = hivemind.DHT(start=True, endpoint=f'{hivemind.LOCALHOST}:*')
														
@@ -117,6 +130,47 @@ def test_allreduce_weighted(n_client_mode_peers: int = 2):
 
															     dht.shutdown()
														
 
															+@pytest.mark.forked
														
 
															+def test_allreduce_compression():
														
 
															+    """ this test ensures that compression works correctly when multiple tensors have different compression types """
														
 
															+    dht = hivemind.DHT(start=True, endpoint=f'{hivemind.LOCALHOST}:*')
														
 
															+
														
 
															+    tensors1 = [torch.linspace(0, 500, 1000) ** 0.5, torch.randn(1000)]
														
 
															+    tensors2 = [torch.linspace(300, 800, 1000) ** 0.5, torch.randn(1000)]
														
 
															+    results = {}
														
 
															+
														
 
															+    FLOAT16, UINT8 = CompressionType.FLOAT16, CompressionType.UNIFORM_8BIT
														
 
															+
														
 
															+    for compression_type_pair in [(FLOAT16, FLOAT16), (FLOAT16, UINT8), (UINT8, FLOAT16), (UINT8, UINT8)]:
														
 
															+        averager1 = hivemind.DecentralizedAverager([x.clone() for x in tensors1], dht=dht,
														
 
															+                                                   compression_type=compression_type_pair, listen=False,
														
 
															+                                                   target_group_size=2, prefix='mygroup', start=True)
														
 
															+        averager2 = hivemind.DecentralizedAverager([x.clone() for x in tensors2], dht=dht,
														
 
															+                                                   compression_type=compression_type_pair,
														
 
															+                                                   target_group_size=2, prefix='mygroup', start=True)
														
 
															+
														
 
															+        for future in averager1.step(wait=False), averager2.step(wait=False):
														
 
															+            future.result()
														
 
															+
														
 
															+        with averager1.get_tensors() as averaged_tensors:
														
 
															+            results[compression_type_pair] = averaged_tensors
														
 
															+
														
 
															+    assert torch.allclose(results[UINT8, FLOAT16][0], results[UINT8, UINT8][0])
														
 
															+    assert torch.allclose(results[UINT8, FLOAT16][1], results[FLOAT16, FLOAT16][1])
														
 
															+    assert torch.allclose(results[UINT8, UINT8][1], results[FLOAT16, UINT8][1])
														
 
															+    assert torch.allclose(results[FLOAT16, UINT8][0], results[FLOAT16, FLOAT16][0])
														
 
															+
														
 
															+    assert not torch.allclose(results[UINT8, FLOAT16][1], results[UINT8, UINT8][1])
														
 
															+    assert not torch.allclose(results[UINT8, FLOAT16][0], results[FLOAT16, FLOAT16][0])
														
 
															+    assert not torch.allclose(results[UINT8, UINT8][0], results[FLOAT16, UINT8][0])
														
 
															+    assert not torch.allclose(results[FLOAT16, UINT8][1], results[FLOAT16, FLOAT16][1])
														
 
															+
														
 
															+    reference = [(tensors1[i] + tensors2[i]) / 2 for i in range(len(tensors1))]
														
 
															+    for i in range(2):
														
 
															+        assert 0 < torch.mean(torch.square(results[FLOAT16, FLOAT16][i] - reference[i])).item() <= 1e-5
														
 
															+        assert 1e-5 < torch.mean(torch.square(results[UINT8, UINT8][i] - reference[i])).item() <= 1e-2
														
 
															+
														
 
															+
														
 
															 def compute_mean_std(averagers, unbiased=True):
														
 
															     results = []
														
 
															     for averager in averagers:
														
@@ -188,68 +242,6 @@ def test_allgather():
 
															     dht.shutdown()
														
 
															-@pytest.mark.forked
														
 
															-@pytest.mark.asyncio
														
 
															-async def test_allreduce_protocol():
														
 
															-    """ Run group allreduce protocol manually without grpc, see if the internal logic is working as intended """
														
 
															-    peers = "alice", "bob", "carol", "colab"
														
 
															-
														
 
															-    tensors_by_peer = {peer: [torch.randn(3, 128), torch.rand(32), torch.tensor(i, dtype=torch.float32)]
														
 
															-                       for i, peer in enumerate(peers)}
														
 
															-
														
 
															-    group_id = random.getrandbits(160).to_bytes(length=20, byteorder='big')
														
 
															-    allreduce_protocols = [AllReduceProtocol(
														
 
															-        group_id=group_id, endpoint=peer, tensors=tensors_by_peer[peer],
														
 
															-        ordered_group_endpoints=peers, part_sizes=(150, 200, 67, 0))
														
 
															-        for peer in peers]
														
 
															-
														
 
															-    async def _accumulate(sender: Endpoint, recipient: Endpoint):
														
 
															-        sender_allreduce = allreduce_protocols[peers.index(sender)]
														
 
															-        recipient_allreduce = allreduce_protocols[peers.index(recipient)]
														
 
															-        averaged_part = await recipient_allreduce.accumulate_part(
														
 
															-            source=sender, remote_part=sender_allreduce.local_tensor_parts[recipient])
														
 
															-        sender_allreduce.register_averaged_part(source=recipient, averaged_part=averaged_part)
														
 
															-
														
 
															-    await asyncio.wait({_accumulate(sender, recipient) for sender in peers for recipient in peers
														
 
															-                        if recipient != "colab"})
														
 
															-
														
 
															-    reference_tensors = [
														
 
															-        sum(tensors_by_peer[peer][i] for peer in peers) / len(peers)
														
 
															-        for i in range(len(tensors_by_peer[peers[0]]))
														
 
															-    ]
														
 
															-
														
 
															-    for peer, allreduce in zip(peers, allreduce_protocols):
														
 
															-        assert allreduce.future.done()
														
 
															-        averaged_tensors = await allreduce
														
 
															-        assert len(averaged_tensors) == len(reference_tensors)
														
 
															-        assert all(torch.allclose(our, ref, atol=1e-6, rtol=0)
														
 
															-                   for our, ref in zip(averaged_tensors, reference_tensors))
														
 
															-
														
 
															-
														
 
															-@pytest.mark.forked
														
 
															-def test_partitioning():
														
 
															-    for _ in range(100):
														
 
															-        tensors = []
														
 
															-        for _ in range(random.randint(1, 5)):
														
 
															-            ndim = random.randint(0, 4)
														
 
															-            shape = torch.Size([random.randint(0, 16) for _ in range(ndim)])
														
 
															-            make_tensor = random.choice([torch.rand, torch.randn, torch.zeros, torch.ones])
														
 
															-            tensors.append(make_tensor(shape))
														
 
															-
														
 
															-        total_size = sum(map(torch.Tensor.numel, tensors))
														
 
															-        if total_size == 0:
														
 
															-            continue
														
 
															-        num_chunks = random.randint(1, min(100, sum(x.numel() for x in tensors)))
														
 
															-        part_sizes = load_balance_peers(total_size, [None] * num_chunks)
														
 
															-        chunks = split_into_parts(tensors, part_sizes)
														
 
															-        assert len(chunks) == num_chunks
														
 
															-        shapes = [tensor.shape for tensor in tensors]
														
 
															-        restored = restore_from_parts(chunks, shapes)
														
 
															-        assert len(restored) == len(tensors)
														
 
															-        assert all(new.shape == old.shape for new, old in zip(restored, tensors))
														
 
															-        assert all(torch.allclose(new, old) for new, old in zip(restored, tensors))
														
 
															-
														
 
															-
														
 
															 def get_cost(vector_size, partitions, throughputs):
														
 
															     return max((vector_size - partitions[i] + (len(partitions) - 1) * partitions[i]) / max(throughputs[i], 1e-9)
														
 
															                for i in range(len(partitions)))
														
@@ -370,6 +362,13 @@ def test_load_state_from_peers():
 
															     assert got_metadata == super_metadata
														
 
															     assert all(map(torch.allclose, got_tensors, super_tensors))
														
 
															+    averager1.allow_state_sharing = False
														
 
															+    assert averager2.load_state_from_peers() is None
														
 
															+    averager1.allow_state_sharing = True
														
 
															+    got_metadata, got_tensors = averager2.load_state_from_peers()
														
 
															+    assert num_calls == 3
														
 
															+    assert got_metadata == super_metadata
														
 
															+
														
 
															 @pytest.mark.forked
														
 
															 def test_getset_bits():
														
--- a/tests/test_dht_schema.py
+++ b/tests/test_dht_schema.py
@@ -1,13 +1,11 @@
 
															-import re
														
 
															-
														
 
															 import pytest
														
 
															-from pydantic import BaseModel, StrictFloat, StrictInt, conint
														
 
															+from pydantic import BaseModel, StrictInt, conint
														
 
															 from typing import Dict
														
 
															 import hivemind
														
 
															 from hivemind.dht import get_dht_time
														
 
															 from hivemind.dht.node import DHTNode, LOCALHOST
														
 
															-from hivemind.dht.schema import BytesWithPublicKey, SchemaValidator, conbytes
														
 
															+from hivemind.dht.schema import BytesWithPublicKey, SchemaValidator
														
 
															 from hivemind.dht.validation import DHTRecord, RecordValidatorBase
														
--- a/tests/test_dht_validation.py
+++ b/tests/test_dht_validation.py
@@ -1,5 +1,4 @@
 
															 import dataclasses
														
 
															-from functools import partial
														
 
															 from typing import Dict
														
 
															 import pytest
														
@@ -10,7 +9,7 @@ from hivemind.dht.crypto import RSASignatureValidator
 
															 from hivemind.dht.protocol import DHTProtocol
														
 
															 from hivemind.dht.routing import DHTID
														
 
															 from hivemind.dht.schema import BytesWithPublicKey, SchemaValidator
														
 
															-from hivemind.dht.validation import DHTRecord, CompositeValidator, RecordValidatorBase
														
 
															+from hivemind.dht.validation import DHTRecord, CompositeValidator
														
 
															 class SchemaA(BaseModel):
														
--- a/tests/test_p2p_daemon.py
+++ b/tests/test_p2p_daemon.py
@@ -0,0 +1,440 @@
 
															+import asyncio
														
 
															+import multiprocessing as mp
														
 
															+import subprocess
														
 
															+from functools import partial
														
 
															+from typing import List
														
 
															+
														
 
															+import numpy as np
														
 
															+import pytest
														
 
															+import torch
														
 
															+
														
 
															+from hivemind.p2p import P2P
														
 
															+from hivemind.p2p.p2p_daemon_bindings.datastructures import PeerID
														
 
															+from hivemind.proto import dht_pb2, runtime_pb2
														
 
															+from hivemind.utils import MSGPackSerializer
														
 
															+from hivemind.utils.compression import deserialize_torch_tensor, serialize_torch_tensor
														
 
															+
														
 
															+
														
 
															+def is_process_running(pid: int) -> bool:
														
 
															+    return subprocess.run(["ps", "-p", str(pid)], stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL).returncode == 0
														
 
															+
														
 
															+
														
 
															+async def replicate_if_needed(p2p: P2P, replicate: bool):
														
 
															+    return await P2P.replicate(p2p._daemon_listen_port, p2p._host_port) if replicate else p2p
														
 
															+
														
 
															+
														
 
															+def bootstrap_addr(host_port, id_):
														
 
															+    return f'/ip4/127.0.0.1/tcp/{host_port}/p2p/{id_}'
														
 
															+
														
 
															+
														
 
															+def bootstrap_from(daemons: List[P2P]) -> List[str]:
														
 
															+    return [bootstrap_addr(d._host_port, d.id) for d in daemons]
														
 
															+
														
 
															+
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_daemon_killed_on_del():
														
 
															+    p2p_daemon = await P2P.create()
														
 
															+
														
 
															+    child_pid = p2p_daemon._child.pid
														
 
															+    assert is_process_running(child_pid)
														
 
															+
														
 
															+    await p2p_daemon.shutdown()
														
 
															+    assert not is_process_running(child_pid)
														
 
															+
														
 
															+
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_server_client_connection():
														
 
															+    server = await P2P.create()
														
 
															+    peers = await server._client.list_peers()
														
 
															+    assert len(peers) == 0
														
 
															+
														
 
															+    nodes = bootstrap_from([server])
														
 
															+    client = await P2P.create(bootstrap=True, bootstrap_peers=nodes)
														
 
															+    await client.wait_for_at_least_n_peers(1)
														
 
															+
														
 
															+    peers = await client._client.list_peers()
														
 
															+    assert len(peers) == 1
														
 
															+    peers = await server._client.list_peers()
														
 
															+    assert len(peers) == 1
														
 
															+
														
 
															+
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_daemon_replica_does_not_affect_primary():
														
 
															+    p2p_daemon = await P2P.create()
														
 
															+    p2p_replica = await P2P.replicate(p2p_daemon._daemon_listen_port, p2p_daemon._host_port)
														
 
															+
														
 
															+    child_pid = p2p_daemon._child.pid
														
 
															+    assert is_process_running(child_pid)
														
 
															+
														
 
															+    await p2p_replica.shutdown()
														
 
															+    assert is_process_running(child_pid)
														
 
															+
														
 
															+    await p2p_daemon.shutdown()
														
 
															+    assert not is_process_running(child_pid)
														
 
															+
														
 
															+
														
 
															+def handle_square(x):
														
 
															+    x = MSGPackSerializer.loads(x)
														
 
															+    return MSGPackSerializer.dumps(x ** 2)
														
 
															+
														
 
															+
														
 
															+def handle_add(args):
														
 
															+    args = MSGPackSerializer.loads(args)
														
 
															+    result = args[0]
														
 
															+    for i in range(1, len(args)):
														
 
															+        result = result + args[i]
														
 
															+    return MSGPackSerializer.dumps(result)
														
 
															+
														
 
															+
														
 
															+def handle_square_torch(x):
														
 
															+    tensor = runtime_pb2.Tensor()
														
 
															+    tensor.ParseFromString(x)
														
 
															+    tensor = deserialize_torch_tensor(tensor)
														
 
															+    result = tensor ** 2
														
 
															+    return serialize_torch_tensor(result).SerializeToString()
														
 
															+
														
 
															+
														
 
															+def handle_add_torch(args):
														
 
															+    args = MSGPackSerializer.loads(args)
														
 
															+    tensor = runtime_pb2.Tensor()
														
 
															+    tensor.ParseFromString(args[0])
														
 
															+    result = deserialize_torch_tensor(tensor)
														
 
															+
														
 
															+    for i in range(1, len(args)):
														
 
															+        tensor = runtime_pb2.Tensor()
														
 
															+        tensor.ParseFromString(args[i])
														
 
															+        result = result + deserialize_torch_tensor(tensor)
														
 
															+
														
 
															+    return serialize_torch_tensor(result).SerializeToString()
														
 
															+
														
 
															+
														
 
															+def handle_add_torch_with_exc(args):
														
 
															+    try:
														
 
															+        return handle_add_torch(args)
														
 
															+    except Exception:
														
 
															+        return b'something went wrong :('
														
 
															+
														
 
															+
														
 
															+@pytest.mark.parametrize(
														
 
															+    'should_cancel,replicate', [
														
 
															+        (True, False),
														
 
															+        (True, True),
														
 
															+        (False, False),
														
 
															+        (False, True),
														
 
															+    ]
														
 
															+)
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_call_unary_handler(should_cancel, replicate, handle_name="handle"):
														
 
															+    handler_cancelled = False
														
 
															+
														
 
															+    async def ping_handler(request, context):
														
 
															+        try:
														
 
															+            await asyncio.sleep(2)
														
 
															+        except asyncio.CancelledError:
														
 
															+            nonlocal handler_cancelled
														
 
															+            handler_cancelled = True
														
 
															+        return dht_pb2.PingResponse(
														
 
															+            peer=dht_pb2.NodeInfo(
														
 
															+                node_id=context.id.encode(), rpc_port=context.port),
														
 
															+            sender_endpoint=context.handle_name, available=True)
														
 
															+
														
 
															+    server_primary = await P2P.create()
														
 
															+    server = await replicate_if_needed(server_primary, replicate)
														
 
															+    server_pid = server_primary._child.pid
														
 
															+    await server.add_unary_handler(handle_name, ping_handler, dht_pb2.PingRequest,
														
 
															+                                   dht_pb2.PingResponse)
														
 
															+    assert is_process_running(server_pid)
														
 
															+
														
 
															+    nodes = bootstrap_from([server])
														
 
															+    client_primary = await P2P.create(bootstrap=True, bootstrap_peers=nodes)
														
 
															+    client = await replicate_if_needed(client_primary, replicate)
														
 
															+    client_pid = client_primary._child.pid
														
 
															+    assert is_process_running(client_pid)
														
 
															+
														
 
															+    ping_request = dht_pb2.PingRequest(
														
 
															+        peer=dht_pb2.NodeInfo(node_id=client.id.encode(), rpc_port=client._host_port),
														
 
															+        validate=True)
														
 
															+    expected_response = dht_pb2.PingResponse(
														
 
															+        peer=dht_pb2.NodeInfo(node_id=server.id.encode(), rpc_port=server._host_port),
														
 
															+        sender_endpoint=handle_name, available=True)
														
 
															+
														
 
															+    await client.wait_for_at_least_n_peers(1)
														
 
															+    libp2p_server_id = PeerID.from_base58(server.id)
														
 
															+    stream_info, reader, writer = await client._client.stream_open(libp2p_server_id, (handle_name,))
														
 
															+
														
 
															+    await P2P.send_protobuf(ping_request, dht_pb2.PingRequest, writer)
														
 
															+
														
 
															+    if should_cancel:
														
 
															+        writer.close()
														
 
															+        await asyncio.sleep(1)
														
 
															+        assert handler_cancelled
														
 
															+    else:
														
 
															+        result, err = await P2P.receive_protobuf(dht_pb2.PingResponse, reader)
														
 
															+        assert err is None
														
 
															+        assert result == expected_response
														
 
															+        assert not handler_cancelled
														
 
															+
														
 
															+    await server.stop_listening()
														
 
															+    await server_primary.shutdown()
														
 
															+    assert not is_process_running(server_pid)
														
 
															+
														
 
															+    await client_primary.shutdown()
														
 
															+    assert not is_process_running(client_pid)
														
 
															+
														
 
															+
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_call_unary_handler_error(handle_name="handle"):
														
 
															+    async def error_handler(request, context):
														
 
															+        raise ValueError('boom')
														
 
															+
														
 
															+    server = await P2P.create()
														
 
															+    server_pid = server._child.pid
														
 
															+    await server.add_unary_handler(handle_name, error_handler, dht_pb2.PingRequest, dht_pb2.PingResponse)
														
 
															+    assert is_process_running(server_pid)
														
 
															+
														
 
															+    nodes = bootstrap_from([server])
														
 
															+    client = await P2P.create(bootstrap=True, bootstrap_peers=nodes)
														
 
															+    client_pid = client._child.pid
														
 
															+    assert is_process_running(client_pid)
														
 
															+    await client.wait_for_at_least_n_peers(1)
														
 
															+
														
 
															+    ping_request = dht_pb2.PingRequest(
														
 
															+        peer=dht_pb2.NodeInfo(node_id=client.id.encode(), rpc_port=client._host_port),
														
 
															+        validate=True)
														
 
															+    libp2p_server_id = PeerID.from_base58(server.id)
														
 
															+    stream_info, reader, writer = await client._client.stream_open(libp2p_server_id, (handle_name,))
														
 
															+
														
 
															+    await P2P.send_protobuf(ping_request, dht_pb2.PingRequest, writer)
														
 
															+    result, err = await P2P.receive_protobuf(dht_pb2.PingResponse, reader)
														
 
															+    assert result is None
														
 
															+    assert err.message == 'boom'
														
 
															+
														
 
															+    await server.stop_listening()
														
 
															+    await server.shutdown()
														
 
															+    await client.shutdown()
														
 
															+
														
 
															+
														
 
															+@pytest.mark.parametrize(
														
 
															+    "test_input,expected,handle",
														
 
															+    [
														
 
															+        pytest.param(10, 100, handle_square, id="square_integer"),
														
 
															+        pytest.param((1, 2), 3, handle_add, id="add_integers"),
														
 
															+        pytest.param(([1, 2, 3], [12, 13]), [1, 2, 3, 12, 13], handle_add, id="add_lists"),
														
 
															+        pytest.param(2, 8, lambda x: MSGPackSerializer.dumps(MSGPackSerializer.loads(x) ** 3), id="lambda")
														
 
															+    ]
														
 
															+)
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_call_peer_single_process(test_input, expected, handle, handler_name="handle"):
														
 
															+    server = await P2P.create()
														
 
															+    server_pid = server._child.pid
														
 
															+    await server.add_stream_handler(handler_name, handle)
														
 
															+    assert is_process_running(server_pid)
														
 
															+
														
 
															+    nodes = bootstrap_from([server])
														
 
															+    client = await P2P.create(bootstrap=True, bootstrap_peers=nodes)
														
 
															+    client_pid = client._child.pid
														
 
															+    assert is_process_running(client_pid)
														
 
															+
														
 
															+    await client.wait_for_at_least_n_peers(1)
														
 
															+
														
 
															+    test_input_msgp = MSGPackSerializer.dumps(test_input)
														
 
															+    result_msgp = await client.call_peer_handler(server.id, handler_name, test_input_msgp)
														
 
															+    result = MSGPackSerializer.loads(result_msgp)
														
 
															+    assert result == expected
														
 
															+
														
 
															+    await server.stop_listening()
														
 
															+    await server.shutdown()
														
 
															+    assert not is_process_running(server_pid)
														
 
															+
														
 
															+    await client.shutdown()
														
 
															+    assert not is_process_running(client_pid)
														
 
															+
														
 
															+
														
 
															+async def run_server(handler_name, server_side, client_side, response_received):
														
 
															+    server = await P2P.create()
														
 
															+    server_pid = server._child.pid
														
 
															+    await server.add_stream_handler(handler_name, handle_square)
														
 
															+    assert is_process_running(server_pid)
														
 
															+
														
 
															+    server_side.send(server.id)
														
 
															+    server_side.send(server._host_port)
														
 
															+    while response_received.value == 0:
														
 
															+        await asyncio.sleep(0.5)
														
 
															+
														
 
															+    await server.stop_listening()
														
 
															+    await server.shutdown()
														
 
															+    assert not is_process_running(server_pid)
														
 
															+
														
 
															+
														
 
															+def server_target(handler_name, server_side, client_side, response_received):
														
 
															+    asyncio.run(run_server(handler_name, server_side, client_side, response_received))
														
 
															+
														
 
															+
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_call_peer_different_processes():
														
 
															+    handler_name = "square"
														
 
															+    test_input = 2
														
 
															+
														
 
															+    server_side, client_side = mp.Pipe()
														
 
															+    response_received = mp.Value(np.ctypeslib.as_ctypes_type(np.int32))
														
 
															+    response_received.value = 0
														
 
															+
														
 
															+    proc = mp.Process(target=server_target, args=(handler_name, server_side, client_side, response_received))
														
 
															+    proc.start()
														
 
															+
														
 
															+    peer_id = client_side.recv()
														
 
															+    peer_port = client_side.recv()
														
 
															+
														
 
															+    nodes = [bootstrap_addr(peer_port, peer_id)]
														
 
															+    client = await P2P.create(bootstrap=True, bootstrap_peers=nodes)
														
 
															+    client_pid = client._child.pid
														
 
															+    assert is_process_running(client_pid)
														
 
															+
														
 
															+    await client.wait_for_at_least_n_peers(1)
														
 
															+
														
 
															+    test_input_msgp = MSGPackSerializer.dumps(2)
														
 
															+    result_msgp = await client.call_peer_handler(peer_id, handler_name, test_input_msgp)
														
 
															+    result = MSGPackSerializer.loads(result_msgp)
														
 
															+    assert np.allclose(result, test_input ** 2)
														
 
															+    response_received.value = 1
														
 
															+
														
 
															+    await client.shutdown()
														
 
															+    assert not is_process_running(client_pid)
														
 
															+
														
 
															+    proc.join()
														
 
															+
														
 
															+
														
 
															+@pytest.mark.parametrize(
														
 
															+    "test_input,expected",
														
 
															+    [
														
 
															+        pytest.param(torch.tensor([2]), torch.tensor(4)),
														
 
															+        pytest.param(
														
 
															+            torch.tensor([[1.0, 2.0], [0.5, 0.1]]),
														
 
															+            torch.tensor([[1.0, 2.0], [0.5, 0.1]]) ** 2),
														
 
															+    ]
														
 
															+)
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_call_peer_torch_square(test_input, expected, handler_name="handle"):
														
 
															+    handle = handle_square_torch
														
 
															+    server = await P2P.create()
														
 
															+    await server.add_stream_handler(handler_name, handle)
														
 
															+
														
 
															+    nodes = bootstrap_from([server])
														
 
															+    client = await P2P.create(bootstrap=True, bootstrap_peers=nodes)
														
 
															+
														
 
															+    await client.wait_for_at_least_n_peers(1)
														
 
															+
														
 
															+    inp = serialize_torch_tensor(test_input).SerializeToString()
														
 
															+    result_pb = await client.call_peer_handler(server.id, handler_name, inp)
														
 
															+    result = runtime_pb2.Tensor()
														
 
															+    result.ParseFromString(result_pb)
														
 
															+    result = deserialize_torch_tensor(result)
														
 
															+    assert torch.allclose(result, expected)
														
 
															+
														
 
															+    await server.stop_listening()
														
 
															+    await server.shutdown()
														
 
															+    await client.shutdown()
														
 
															+
														
 
															+
														
 
															+@pytest.mark.parametrize(
														
 
															+    "test_input,expected",
														
 
															+    [
														
 
															+        pytest.param([torch.tensor([1]), torch.tensor([2])], torch.tensor([3])),
														
 
															+        pytest.param(
														
 
															+            [torch.tensor([[0.1, 0.2], [0.3, 0.4]]), torch.tensor([[1.1, 1.2], [1.3, 1.4]])],
														
 
															+            torch.tensor([[1.2, 1.4], [1.6, 1.8]])),
														
 
															+    ]
														
 
															+)
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_call_peer_torch_add(test_input, expected, handler_name="handle"):
														
 
															+    handle = handle_add_torch
														
 
															+    server = await P2P.create()
														
 
															+    await server.add_stream_handler(handler_name, handle)
														
 
															+
														
 
															+    nodes = bootstrap_from([server])
														
 
															+    client = await P2P.create(bootstrap=True, bootstrap_peers=nodes)
														
 
															+
														
 
															+    await client.wait_for_at_least_n_peers(1)
														
 
															+
														
 
															+    inp = [serialize_torch_tensor(i).SerializeToString() for i in test_input]
														
 
															+    inp_msgp = MSGPackSerializer.dumps(inp)
														
 
															+    result_pb = await client.call_peer_handler(server.id, handler_name, inp_msgp)
														
 
															+    result = runtime_pb2.Tensor()
														
 
															+    result.ParseFromString(result_pb)
														
 
															+    result = deserialize_torch_tensor(result)
														
 
															+    assert torch.allclose(result, expected)
														
 
															+
														
 
															+    await server.stop_listening()
														
 
															+    await server.shutdown()
														
 
															+    await client.shutdown()
														
 
															+
														
 
															+
														
 
															+@pytest.mark.parametrize(
														
 
															+    "replicate",
														
 
															+    [
														
 
															+        pytest.param(False, id="primary"),
														
 
															+        pytest.param(True, id="replica"),
														
 
															+    ]
														
 
															+)
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_call_peer_error(replicate, handler_name="handle"):
														
 
															+    server_primary = await P2P.create()
														
 
															+    server = await replicate_if_needed(server_primary, replicate)
														
 
															+    await server.add_stream_handler(handler_name, handle_add_torch_with_exc)
														
 
															+
														
 
															+    nodes = bootstrap_from([server])
														
 
															+    client_primary = await P2P.create(bootstrap=True, bootstrap_peers=nodes)
														
 
															+    client = await replicate_if_needed(client_primary, replicate)
														
 
															+
														
 
															+    await client.wait_for_at_least_n_peers(1)
														
 
															+
														
 
															+    inp = [serialize_torch_tensor(i).SerializeToString() for i in [torch.zeros((2, 3)), torch.zeros((3, 2))]]
														
 
															+    inp_msgp = MSGPackSerializer.dumps(inp)
														
 
															+    result = await client.call_peer_handler(server.id, handler_name, inp_msgp)
														
 
															+    assert result == b'something went wrong :('
														
 
															+
														
 
															+    await server.stop_listening()
														
 
															+    await server_primary.shutdown()
														
 
															+    await client_primary.shutdown()
														
 
															+
														
 
															+
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_handlers_on_different_replicas(handler_name="handle"):
														
 
															+    def handler(arg, key):
														
 
															+        return key
														
 
															+
														
 
															+    server_primary = await P2P.create(bootstrap=False)
														
 
															+    server_id = server_primary.id
														
 
															+    await server_primary.add_stream_handler(handler_name, partial(handler, key=b'primary'))
														
 
															+
														
 
															+    server_replica1 = await replicate_if_needed(server_primary, True)
														
 
															+    await server_replica1.add_stream_handler(handler_name + '1', partial(handler, key=b'replica1'))
														
 
															+
														
 
															+    server_replica2 = await replicate_if_needed(server_primary, True)
														
 
															+    await server_replica2.add_stream_handler(handler_name + '2', partial(handler, key=b'replica2'))
														
 
															+
														
 
															+    nodes = bootstrap_from([server_primary])
														
 
															+    client = await P2P.create(bootstrap=True, bootstrap_peers=nodes)
														
 
															+    await client.wait_for_at_least_n_peers(1)
														
 
															+
														
 
															+    result = await client.call_peer_handler(server_id, handler_name, b'1')
														
 
															+    assert result == b"primary"
														
 
															+
														
 
															+    result = await client.call_peer_handler(server_id, handler_name + '1', b'2')
														
 
															+    assert result == b"replica1"
														
 
															+
														
 
															+    result = await client.call_peer_handler(server_id, handler_name + '2', b'3')
														
 
															+    assert result == b"replica2"
														
 
															+
														
 
															+    await server_replica1.stop_listening()
														
 
															+    await server_replica2.stop_listening()
														
 
															+
														
 
															+    # Primary does not handle replicas protocols
														
 
															+    with pytest.raises(Exception):
														
 
															+        await client.call_peer_handler(server_id, handler_name + '1', b'')
														
 
															+    with pytest.raises(Exception):
														
 
															+        await client.call_peer_handler(server_id, handler_name + '2', b'')
														
 
															+
														
 
															+    await server_primary.stop_listening()
														
 
															+    await server_primary.shutdown()
														
 
															+    await client.shutdown()
														
--- a/tests/test_p2p_daemon_bindings.py
+++ b/tests/test_p2p_daemon_bindings.py
@@ -0,0 +1,559 @@
 
															+import asyncio
														
 
															+import io
														
 
															+from contextlib import AsyncExitStack
														
 
															+
														
 
															+import pytest
														
 
															+from google.protobuf.message import EncodeError
														
 
															+from multiaddr import Multiaddr, protocols
														
 
															+
														
 
															+from hivemind.p2p.p2p_daemon_bindings.control import ControlClient, DaemonConnector, parse_conn_protocol
														
 
															+from hivemind.p2p.p2p_daemon_bindings.datastructures import PeerID, PeerInfo, StreamInfo
														
 
															+from hivemind.p2p.p2p_daemon_bindings.utils import (ControlFailure, raise_if_failed, read_pbmsg_safe,
														
 
															+                                                    read_unsigned_varint, write_pbmsg, write_unsigned_varint)
														
 
															+from hivemind.proto import p2pd_pb2 as p2pd_pb
														
 
															+from test_utils import make_p2pd_pair_ip4, connect_safe
														
 
															+
														
 
															+
														
 
															+def test_raise_if_failed_raises():
														
 
															+    resp = p2pd_pb.Response()
														
 
															+    resp.type = p2pd_pb.Response.ERROR
														
 
															+    with pytest.raises(ControlFailure):
														
 
															+        raise_if_failed(resp)
														
 
															+
														
 
															+
														
 
															+def test_raise_if_failed_not_raises():
														
 
															+    resp = p2pd_pb.Response()
														
 
															+    resp.type = p2pd_pb.Response.OK
														
 
															+    raise_if_failed(resp)
														
 
															+
														
 
															+
														
 
															+PAIRS_INT_SERIALIZED_VALID = (
														
 
															+    (0, b"\x00"),
														
 
															+    (1, b"\x01"),
														
 
															+    (128, b"\x80\x01"),
														
 
															+    (2 ** 32, b"\x80\x80\x80\x80\x10"),
														
 
															+    (2 ** 64 - 1, b"\xff\xff\xff\xff\xff\xff\xff\xff\xff\x01"),
														
 
															+)
														
 
															+
														
 
															+PAIRS_INT_SERIALIZED_OVERFLOW = (
														
 
															+    (2 ** 64, b"\x80\x80\x80\x80\x80\x80\x80\x80\x80\x02"),
														
 
															+    (2 ** 64 + 1, b"\x81\x80\x80\x80\x80\x80\x80\x80\x80\x02"),
														
 
															+    (
														
 
															+        2 ** 128,
														
 
															+        b"\x80\x80\x80\x80\x80\x80\x80\x80\x80\x80\x80\x80\x80\x80\x80\x80\x80\x80\x04",
														
 
															+    ),
														
 
															+)
														
 
															+
														
 
															+PEER_ID_STRING = "QmS5QmciTXXnCUCyxud5eWFenUMAmvAWSDa1c7dvdXRMZ7"
														
 
															+PEER_ID_BYTES = b'\x12 7\x87F.[\xb5\xb1o\xe5*\xc7\xb9\xbb\x11:"Z|j2\x8ad\x1b\xa6\xe5<Ip\xfe\xb4\xf5v'
														
 
															+PEER_ID = PeerID(PEER_ID_BYTES)
														
 
															+MADDR = Multiaddr("/unix/123")
														
 
															+NUM_P2PDS = 4
														
 
															+PEER_ID_RANDOM = PeerID.from_base58("QmcgpsyWgH8Y8ajJz1Cu72KnS5uo2Aa2LpzU7kinSupNK1")
														
 
															+ENABLE_CONTROL = True
														
 
															+ENABLE_CONNMGR = False
														
 
															+ENABLE_DHT = False
														
 
															+ENABLE_PUBSUB = False
														
 
															+FUNC_MAKE_P2PD_PAIR = make_p2pd_pair_ip4
														
 
															+
														
 
															+
														
 
															+class MockReader(io.BytesIO):
														
 
															+    async def readexactly(self, n):
														
 
															+        await asyncio.sleep(0)
														
 
															+        return self.read(n)
														
 
															+
														
 
															+
														
 
															+class MockWriter(io.BytesIO):
														
 
															+    pass
														
 
															+
														
 
															+
														
 
															+class MockReaderWriter(MockReader, MockWriter):
														
 
															+    pass
														
 
															+
														
 
															+
														
 
															+@pytest.mark.parametrize("integer, serialized_integer", PAIRS_INT_SERIALIZED_VALID)
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_write_unsigned_varint(integer, serialized_integer):
														
 
															+    s = MockWriter()
														
 
															+    await write_unsigned_varint(s, integer)
														
 
															+    assert s.getvalue() == serialized_integer
														
 
															+
														
 
															+
														
 
															+@pytest.mark.parametrize("integer", tuple(i[0] for i in PAIRS_INT_SERIALIZED_OVERFLOW))
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_write_unsigned_varint_overflow(integer):
														
 
															+    s = MockWriter()
														
 
															+    with pytest.raises(ValueError):
														
 
															+        await write_unsigned_varint(s, integer)
														
 
															+
														
 
															+
														
 
															+@pytest.mark.parametrize("integer", (-1, -(2 ** 32), -(2 ** 64), -(2 ** 128)))
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_write_unsigned_varint_negative(integer):
														
 
															+    s = MockWriter()
														
 
															+    with pytest.raises(ValueError):
														
 
															+        await write_unsigned_varint(s, integer)
														
 
															+
														
 
															+
														
 
															+@pytest.mark.parametrize("integer, serialized_integer", PAIRS_INT_SERIALIZED_VALID)
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_read_unsigned_varint(integer, serialized_integer):
														
 
															+    s = MockReader(serialized_integer)
														
 
															+    result = await read_unsigned_varint(s)
														
 
															+    assert result == integer
														
 
															+
														
 
															+
														
 
															+@pytest.mark.parametrize("serialized_integer", tuple(i[1] for i in PAIRS_INT_SERIALIZED_OVERFLOW))
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_read_unsigned_varint_overflow(serialized_integer):
														
 
															+    s = MockReader(serialized_integer)
														
 
															+    with pytest.raises(ValueError):
														
 
															+        await read_unsigned_varint(s)
														
 
															+
														
 
															+
														
 
															+@pytest.mark.parametrize("max_bits", (2, 31, 32, 63, 64, 127, 128))
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_read_write_unsigned_varint_max_bits_edge(max_bits):
														
 
															+    """
														
 
															+    Test edge cases with different `max_bits`
														
 
															+    """
														
 
															+    for i in range(-3, 0):
														
 
															+        integer = i + (2 ** max_bits)
														
 
															+        s = MockReaderWriter()
														
 
															+        await write_unsigned_varint(s, integer, max_bits=max_bits)
														
 
															+        s.seek(0, 0)
														
 
															+        result = await read_unsigned_varint(s, max_bits=max_bits)
														
 
															+        assert integer == result
														
 
															+
														
 
															+
														
 
															+def test_peer_id():
														
 
															+    assert PEER_ID.to_bytes() == PEER_ID_BYTES
														
 
															+    assert PEER_ID.to_string() == PEER_ID_STRING
														
 
															+
														
 
															+    peer_id_2 = PeerID.from_base58(PEER_ID_STRING)
														
 
															+    assert peer_id_2.to_bytes() == PEER_ID_BYTES
														
 
															+    assert peer_id_2.to_string() == PEER_ID_STRING
														
 
															+    assert PEER_ID == peer_id_2
														
 
															+    peer_id_3 = PeerID.from_base58("QmbmfNDEth7Ucvjuxiw3SP3E4PoJzbk7g4Ge6ZDigbCsNp")
														
 
															+    assert PEER_ID != peer_id_3
														
 
															+
														
 
															+
														
 
															+def test_stream_info():
														
 
															+    proto = "123"
														
 
															+    si = StreamInfo(PEER_ID, MADDR, proto)
														
 
															+    assert si.peer_id == PEER_ID
														
 
															+    assert si.addr == MADDR
														
 
															+    assert si.proto == proto
														
 
															+    pb_si = si.to_protobuf()
														
 
															+    assert pb_si.peer == PEER_ID.to_bytes()
														
 
															+    assert pb_si.addr == MADDR.to_bytes()
														
 
															+    assert pb_si.proto == si.proto
														
 
															+    si_1 = StreamInfo.from_protobuf(pb_si)
														
 
															+    assert si_1.peer_id == PEER_ID
														
 
															+    assert si_1.addr == MADDR
														
 
															+    assert si_1.proto == proto
														
 
															+
														
 
															+
														
 
															+def test_peer_info():
														
 
															+    pi = PeerInfo(PEER_ID, [MADDR])
														
 
															+    assert pi.peer_id == PEER_ID
														
 
															+    assert pi.addrs == [MADDR]
														
 
															+    pi_pb = p2pd_pb.PeerInfo(id=PEER_ID.to_bytes(), addrs=[MADDR.to_bytes()])
														
 
															+    pi_1 = PeerInfo.from_protobuf(pi_pb)
														
 
															+    assert pi.peer_id == pi_1.peer_id
														
 
															+    assert pi.addrs == pi_1.addrs
														
 
															+
														
 
															+
														
 
															+@pytest.mark.parametrize(
														
 
															+    "maddr_str, expected_proto",
														
 
															+    (("/unix/123", protocols.P_UNIX), ("/ip4/127.0.0.1/tcp/7777", protocols.P_IP4)),
														
 
															+)
														
 
															+def test_parse_conn_protocol_valid(maddr_str, expected_proto):
														
 
															+    assert parse_conn_protocol(Multiaddr(maddr_str)) == expected_proto
														
 
															+
														
 
															+
														
 
															+@pytest.mark.parametrize(
														
 
															+    "maddr_str",
														
 
															+    (
														
 
															+        "/p2p/QmbHVEEepCi7rn7VL7Exxpd2Ci9NNB6ifvqwhsrbRMgQFP",
														
 
															+        "/onion/timaq4ygg2iegci7:1234",
														
 
															+    ),
														
 
															+)
														
 
															+def test_parse_conn_protocol_invalid(maddr_str):
														
 
															+    maddr = Multiaddr(maddr_str)
														
 
															+    with pytest.raises(ValueError):
														
 
															+        parse_conn_protocol(maddr)
														
 
															+
														
 
															+
														
 
															+@pytest.mark.parametrize("control_maddr_str", ("/unix/123", "/ip4/127.0.0.1/tcp/6666"))
														
 
															+def test_client_ctor_control_maddr(control_maddr_str):
														
 
															+    c = DaemonConnector(Multiaddr(control_maddr_str))
														
 
															+    assert c.control_maddr == Multiaddr(control_maddr_str)
														
 
															+
														
 
															+
														
 
															+def test_client_ctor_default_control_maddr():
														
 
															+    c = DaemonConnector()
														
 
															+    assert c.control_maddr == Multiaddr(DaemonConnector.DEFAULT_CONTROL_MADDR)
														
 
															+
														
 
															+
														
 
															+@pytest.mark.parametrize("listen_maddr_str", ("/unix/123", "/ip4/127.0.0.1/tcp/6666"))
														
 
															+def test_control_client_ctor_listen_maddr(listen_maddr_str):
														
 
															+    c = ControlClient(
														
 
															+        daemon_connector=DaemonConnector(), listen_maddr=Multiaddr(listen_maddr_str)
														
 
															+    )
														
 
															+    assert c.listen_maddr == Multiaddr(listen_maddr_str)
														
 
															+
														
 
															+
														
 
															+def test_control_client_ctor_default_listen_maddr():
														
 
															+    c = ControlClient(daemon_connector=DaemonConnector())
														
 
															+    assert c.listen_maddr == Multiaddr(ControlClient.DEFAULT_LISTEN_MADDR)
														
 
															+
														
 
															+
														
 
															+@pytest.mark.parametrize(
														
 
															+    "msg_bytes",
														
 
															+    (
														
 
															+        p2pd_pb.Response(
														
 
															+            type=p2pd_pb.Response.Type.OK,
														
 
															+            identify=p2pd_pb.IdentifyResponse(
														
 
															+                id=PeerID.from_base58('QmT7WhTne9zBLfAgAJt9aiZ8jZ5BxJGowRubxsHYmnyzUd').to_bytes(),
														
 
															+                addrs=[Multiaddr('/p2p-circuit').to_bytes(), Multiaddr('/ip4/127.0.0.1/tcp/51126').to_bytes(),
														
 
															+                       Multiaddr('/ip4/192.168.10.135/tcp/51126').to_bytes(),
														
 
															+                       Multiaddr('/ip6/::1/tcp/51127').to_bytes()]
														
 
															+            )).SerializeToString(),
														
 
															+        p2pd_pb.Response(
														
 
															+            type=p2pd_pb.Response.Type.OK,
														
 
															+            identify=p2pd_pb.IdentifyResponse(
														
 
															+                id=PeerID.from_base58('QmcQFt2MFfCZ9AxzUCNrk4k7TtMdZZvAAteaA6tHpBKdrk').to_bytes(),
														
 
															+                addrs=[Multiaddr('/p2p-circuit').to_bytes(), Multiaddr('/ip4/127.0.0.1/tcp/51493').to_bytes(),
														
 
															+                       Multiaddr('/ip4/192.168.10.135/tcp/51493').to_bytes(),
														
 
															+                       Multiaddr('/ip6/::1/tcp/51494').to_bytes()]
														
 
															+            )).SerializeToString(),
														
 
															+        p2pd_pb.Response(
														
 
															+            type=p2pd_pb.Response.Type.OK,
														
 
															+            identify=p2pd_pb.IdentifyResponse(
														
 
															+                id=PeerID.from_base58('QmbWqVVoz7v9LS9ZUQAhyyfdFJY3iU8ZrUY3XQozoTA5cc').to_bytes(),
														
 
															+                addrs=[Multiaddr('/p2p-circuit').to_bytes(), Multiaddr('/ip4/127.0.0.1/tcp/51552').to_bytes(),
														
 
															+                       Multiaddr('/ip4/192.168.10.135/tcp/51552').to_bytes(),
														
 
															+                       Multiaddr('/ip6/::1/tcp/51553').to_bytes()]
														
 
															+            )).SerializeToString(),
														
 
															+    ),
														
 
															+    # give test cases ids to prevent bytes from ruining the terminal
														
 
															+    ids=("pb example Response 0", "pb example Response 1", "pb example Response 2"),
														
 
															+)
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_read_pbmsg_safe_valid(msg_bytes):
														
 
															+    s = MockReaderWriter()
														
 
															+    await write_unsigned_varint(s, len(msg_bytes))
														
 
															+    s.write(msg_bytes)
														
 
															+    # reset the offset back to the beginning
														
 
															+    s.seek(0, 0)
														
 
															+    pb_msg = p2pd_pb.Response()
														
 
															+    await read_pbmsg_safe(s, pb_msg)
														
 
															+    assert pb_msg.SerializeToString() == msg_bytes
														
 
															+
														
 
															+
														
 
															+@pytest.mark.parametrize(
														
 
															+    "pb_type, pb_msg",
														
 
															+    (
														
 
															+        (
														
 
															+            p2pd_pb.Response,
														
 
															+            p2pd_pb.Response(
														
 
															+                type=p2pd_pb.Response.Type.OK,
														
 
															+                dht=p2pd_pb.DHTResponse(
														
 
															+                    type=p2pd_pb.DHTResponse.Type.VALUE,
														
 
															+                    peer=p2pd_pb.PeerInfo(
														
 
															+                        id=PeerID.from_base58('QmNaXUy78W9moQ9APCoKaTtPjLcEJPN9hRBCqErY7o2fQs').to_bytes(),
														
 
															+                        addrs=[Multiaddr('/p2p-circuit').to_bytes(), Multiaddr('/ip4/127.0.0.1/tcp/56929').to_bytes(),
														
 
															+                               Multiaddr('/ip4/192.168.10.135/tcp/56929').to_bytes(),
														
 
															+                               Multiaddr('/ip6/::1/tcp/56930').to_bytes()]
														
 
															+                    )
														
 
															+                )
														
 
															+            ),
														
 
															+        ),
														
 
															+        (p2pd_pb.Request, p2pd_pb.Request(type=p2pd_pb.Request.Type.LIST_PEERS)),
														
 
															+        (
														
 
															+            p2pd_pb.DHTRequest,
														
 
															+            p2pd_pb.DHTRequest(type=p2pd_pb.DHTRequest.Type.FIND_PEER,
														
 
															+                               peer=PeerID.from_base58('QmcgHMuEhqdLHDVeNjiCGU7Ds6E7xK3f4amgiwHNPKKn7R').to_bytes()),
														
 
															+        ),
														
 
															+        (
														
 
															+            p2pd_pb.DHTResponse,
														
 
															+            p2pd_pb.DHTResponse(
														
 
															+                type=p2pd_pb.DHTResponse.Type.VALUE,
														
 
															+                peer=p2pd_pb.PeerInfo(
														
 
															+                    id=PeerID.from_base58('QmWP32GhEyXVQsLXFvV81eadDC8zQRZxZvJK359rXxLquk').to_bytes(),
														
 
															+                    addrs=[Multiaddr('/p2p-circuit').to_bytes(), Multiaddr('/ip4/127.0.0.1/tcp/56897').to_bytes(),
														
 
															+                           Multiaddr('/ip4/192.168.10.135/tcp/56897').to_bytes(),
														
 
															+                           Multiaddr('/ip6/::1/tcp/56898').to_bytes()]
														
 
															+                )
														
 
															+            ),
														
 
															+        ),
														
 
															+        (
														
 
															+            p2pd_pb.StreamInfo,
														
 
															+            p2pd_pb.StreamInfo(peer=PeerID.from_base58('QmewLxB46MftfxQiunRgJo2W8nW4Lh5NLEkRohkHhJ4wW6').to_bytes(),
														
 
															+                               addr=Multiaddr('/ip4/127.0.0.1/tcp/57029').to_bytes(),
														
 
															+                               proto=b'protocol123'),
														
 
															+        ),
														
 
															+    ),
														
 
															+    ids=(
														
 
															+        "pb example Response",
														
 
															+        "pb example Request",
														
 
															+        "pb example DHTRequest",
														
 
															+        "pb example DHTResponse",
														
 
															+        "pb example StreamInfo",
														
 
															+    ),
														
 
															+)
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_write_pbmsg(pb_type, pb_msg):
														
 
															+    msg_bytes = bytes(chr(pb_msg.ByteSize()), 'utf-8') + pb_msg.SerializeToString()
														
 
															+    pb_obj = pb_type()
														
 
															+
														
 
															+    s_read = MockReaderWriter(msg_bytes)
														
 
															+    await read_pbmsg_safe(s_read, pb_obj)
														
 
															+    s_write = MockReaderWriter()
														
 
															+    await write_pbmsg(s_write, pb_obj)
														
 
															+    assert msg_bytes == s_write.getvalue()
														
 
															+
														
 
															+
														
 
															+@pytest.mark.parametrize(
														
 
															+    "pb_msg",
														
 
															+    (
														
 
															+        p2pd_pb.Response(),
														
 
															+        p2pd_pb.Request(),
														
 
															+        p2pd_pb.DHTRequest(),
														
 
															+        p2pd_pb.DHTResponse(),
														
 
															+        p2pd_pb.StreamInfo(),
														
 
															+    ),
														
 
															+)
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_write_pbmsg_missing_fields(pb_msg):
														
 
															+    with pytest.raises(EncodeError):
														
 
															+        await write_pbmsg(MockReaderWriter(), pb_msg)
														
 
															+
														
 
															+
														
 
															+@pytest.fixture
														
 
															+async def p2pcs():
														
 
															+    # TODO: Change back to gather style
														
 
															+    async with AsyncExitStack() as stack:
														
 
															+        p2pd_tuples = [
														
 
															+            await stack.enter_async_context(
														
 
															+                FUNC_MAKE_P2PD_PAIR(
														
 
															+                    enable_control=ENABLE_CONTROL,
														
 
															+                    enable_connmgr=ENABLE_CONNMGR,
														
 
															+                    enable_dht=ENABLE_DHT,
														
 
															+                    enable_pubsub=ENABLE_PUBSUB,
														
 
															+                )
														
 
															+            )
														
 
															+            for _ in range(NUM_P2PDS)
														
 
															+        ]
														
 
															+        yield tuple(p2pd_tuple.client for p2pd_tuple in p2pd_tuples)
														
 
															+
														
 
															+
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_client_identify_unix_socket(p2pcs):
														
 
															+    await p2pcs[0].identify()
														
 
															+
														
 
															+
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_client_identify(p2pcs):
														
 
															+    await p2pcs[0].identify()
														
 
															+
														
 
															+
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_client_connect_success(p2pcs):
														
 
															+    peer_id_0, maddrs_0 = await p2pcs[0].identify()
														
 
															+    peer_id_1, maddrs_1 = await p2pcs[1].identify()
														
 
															+    await p2pcs[0].connect(peer_id_1, maddrs_1)
														
 
															+    # test case: repeated connections
														
 
															+    await p2pcs[1].connect(peer_id_0, maddrs_0)
														
 
															+
														
 
															+
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_client_connect_failure(p2pcs):
														
 
															+    peer_id_1, maddrs_1 = await p2pcs[1].identify()
														
 
															+    await p2pcs[0].identify()
														
 
															+    # test case: `peer_id` mismatches
														
 
															+    with pytest.raises(ControlFailure):
														
 
															+        await p2pcs[0].connect(PEER_ID_RANDOM, maddrs_1)
														
 
															+    # test case: empty maddrs
														
 
															+    with pytest.raises(ControlFailure):
														
 
															+        await p2pcs[0].connect(peer_id_1, [])
														
 
															+    # test case: wrong maddrs
														
 
															+    with pytest.raises(ControlFailure):
														
 
															+        await p2pcs[0].connect(peer_id_1, [Multiaddr("/ip4/127.0.0.1/udp/0")])
														
 
															+
														
 
															+
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_connect_safe(p2pcs):
														
 
															+    await connect_safe(p2pcs[0], p2pcs[1])
														
 
															+
														
 
															+
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_client_list_peers(p2pcs):
														
 
															+    # test case: no peers
														
 
															+    assert len(await p2pcs[0].list_peers()) == 0
														
 
															+    # test case: 1 peer
														
 
															+    await connect_safe(p2pcs[0], p2pcs[1])
														
 
															+    assert len(await p2pcs[0].list_peers()) == 1
														
 
															+    assert len(await p2pcs[1].list_peers()) == 1
														
 
															+    # test case: one more peer
														
 
															+    await connect_safe(p2pcs[0], p2pcs[2])
														
 
															+    assert len(await p2pcs[0].list_peers()) == 2
														
 
															+    assert len(await p2pcs[1].list_peers()) == 1
														
 
															+    assert len(await p2pcs[2].list_peers()) == 1
														
 
															+
														
 
															+
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_client_disconnect(p2pcs):
														
 
															+    # test case: disconnect a peer without connections
														
 
															+    await p2pcs[1].disconnect(PEER_ID_RANDOM)
														
 
															+    # test case: disconnect
														
 
															+    peer_id_0, _ = await p2pcs[0].identify()
														
 
															+    await connect_safe(p2pcs[0], p2pcs[1])
														
 
															+    assert len(await p2pcs[0].list_peers()) == 1
														
 
															+    assert len(await p2pcs[1].list_peers()) == 1
														
 
															+    await p2pcs[1].disconnect(peer_id_0)
														
 
															+    assert len(await p2pcs[0].list_peers()) == 0
														
 
															+    assert len(await p2pcs[1].list_peers()) == 0
														
 
															+    # test case: disconnect twice
														
 
															+    await p2pcs[1].disconnect(peer_id_0)
														
 
															+    assert len(await p2pcs[0].list_peers()) == 0
														
 
															+    assert len(await p2pcs[1].list_peers()) == 0
														
 
															+
														
 
															+
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_client_stream_open_success(p2pcs):
														
 
															+    peer_id_1, maddrs_1 = await p2pcs[1].identify()
														
 
															+    await connect_safe(p2pcs[0], p2pcs[1])
														
 
															+
														
 
															+    proto = "123"
														
 
															+
														
 
															+    async def handle_proto(stream_info, reader, writer):
														
 
															+        await reader.readexactly(1)
														
 
															+
														
 
															+    await p2pcs[1].stream_handler(proto, handle_proto)
														
 
															+
														
 
															+    # test case: normal
														
 
															+    stream_info, reader, writer = await p2pcs[0].stream_open(peer_id_1, (proto,))
														
 
															+    assert stream_info.peer_id == peer_id_1
														
 
															+    assert stream_info.addr in maddrs_1
														
 
															+    assert stream_info.proto == "123"
														
 
															+    writer.close()
														
 
															+
														
 
															+    # test case: open with multiple protocols
														
 
															+    stream_info, reader, writer = await p2pcs[0].stream_open(
														
 
															+        peer_id_1, (proto, "another_protocol")
														
 
															+    )
														
 
															+    assert stream_info.peer_id == peer_id_1
														
 
															+    assert stream_info.addr in maddrs_1
														
 
															+    assert stream_info.proto == "123"
														
 
															+    writer.close()
														
 
															+
														
 
															+
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_client_stream_open_failure(p2pcs):
														
 
															+    peer_id_1, _ = await p2pcs[1].identify()
														
 
															+    await connect_safe(p2pcs[0], p2pcs[1])
														
 
															+
														
 
															+    proto = "123"
														
 
															+
														
 
															+    # test case: `stream_open` to a peer who didn't register the protocol
														
 
															+    with pytest.raises(ControlFailure):
														
 
															+        await p2pcs[0].stream_open(peer_id_1, (proto,))
														
 
															+
														
 
															+    # test case: `stream_open` to a peer for a non-registered protocol
														
 
															+    async def handle_proto(stream_info, reader, writer):
														
 
															+        pass
														
 
															+
														
 
															+    await p2pcs[1].stream_handler(proto, handle_proto)
														
 
															+    with pytest.raises(ControlFailure):
														
 
															+        await p2pcs[0].stream_open(peer_id_1, ("another_protocol",))
														
 
															+
														
 
															+
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_client_stream_handler_success(p2pcs):
														
 
															+    peer_id_1, _ = await p2pcs[1].identify()
														
 
															+    await connect_safe(p2pcs[0], p2pcs[1])
														
 
															+
														
 
															+    proto = "protocol123"
														
 
															+    bytes_to_send = b"yoyoyoyoyog"
														
 
															+    # event for this test function to wait until the handler function receiving the incoming data
														
 
															+    event_handler_finished = asyncio.Event()
														
 
															+
														
 
															+    async def handle_proto(stream_info, reader, writer):
														
 
															+        nonlocal event_handler_finished
														
 
															+        bytes_received = await reader.readexactly(len(bytes_to_send))
														
 
															+        assert bytes_received == bytes_to_send
														
 
															+        event_handler_finished.set()
														
 
															+
														
 
															+    await p2pcs[1].stream_handler(proto, handle_proto)
														
 
															+    assert proto in p2pcs[1].control.handlers
														
 
															+    assert handle_proto == p2pcs[1].control.handlers[proto]
														
 
															+
														
 
															+    # test case: test the stream handler `handle_proto`
														
 
															+
														
 
															+    _, reader, writer = await p2pcs[0].stream_open(peer_id_1, (proto,))
														
 
															+
														
 
															+    # wait until the handler function starts blocking waiting for the data
														
 
															+    # because we haven't sent the data, we know the handler function must still blocking waiting.
														
 
															+    # get the task of the protocol handler
														
 
															+    writer.write(bytes_to_send)
														
 
															+
														
 
															+    # wait for the handler to finish
														
 
															+    writer.close()
														
 
															+
														
 
															+    await event_handler_finished.wait()
														
 
															+
														
 
															+    # test case: two streams to different handlers respectively
														
 
															+    another_proto = "another_protocol123"
														
 
															+    another_bytes_to_send = b"456"
														
 
															+    event_another_proto = asyncio.Event()
														
 
															+
														
 
															+    async def handle_another_proto(stream_info, reader, writer):
														
 
															+        event_another_proto.set()
														
 
															+        bytes_received = await reader.readexactly(len(another_bytes_to_send))
														
 
															+        assert bytes_received == another_bytes_to_send
														
 
															+
														
 
															+    await p2pcs[1].stream_handler(another_proto, handle_another_proto)
														
 
															+    assert another_proto in p2pcs[1].control.handlers
														
 
															+    assert handle_another_proto == p2pcs[1].control.handlers[another_proto]
														
 
															+
														
 
															+    _, reader, writer = await p2pcs[0].stream_open(peer_id_1, (another_proto,))
														
 
															+    await event_another_proto.wait()
														
 
															+
														
 
															+    # we know at this moment the handler must still blocking wait
														
 
															+
														
 
															+    writer.write(another_bytes_to_send)
														
 
															+
														
 
															+    writer.close()
														
 
															+
														
 
															+    # test case: registering twice can override the previous registration
														
 
															+    event_third = asyncio.Event()
														
 
															+
														
 
															+    async def handler_third(stream_info, reader, writer):
														
 
															+        event_third.set()
														
 
															+
														
 
															+    await p2pcs[1].stream_handler(another_proto, handler_third)
														
 
															+    assert another_proto in p2pcs[1].control.handlers
														
 
															+    # ensure the handler is override
														
 
															+    assert handler_third == p2pcs[1].control.handlers[another_proto]
														
 
															+
														
 
															+    await p2pcs[0].stream_open(peer_id_1, (another_proto,))
														
 
															+    # ensure the overriding handler is called when the protocol is opened a stream
														
 
															+    await event_third.wait()
														
 
															+
														
 
															+
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_client_stream_handler_failure(p2pcs):
														
 
															+    peer_id_1, _ = await p2pcs[1].identify()
														
 
															+    await connect_safe(p2pcs[0], p2pcs[1])
														
 
															+
														
 
															+    proto = "123"
														
 
															+
														
 
															+    # test case: registered a wrong protocol name
														
 
															+    async def handle_proto_correct_params(stream_info, stream):
														
 
															+        pass
														
 
															+
														
 
															+    await p2pcs[1].stream_handler("another_protocol", handle_proto_correct_params)
														
 
															+    with pytest.raises(ControlFailure):
														
 
															+        await p2pcs[0].stream_open(peer_id_1, (proto,))
														
--- a/tests/test_util_modules.py
+++ b/tests/test_util_modules.py
@@ -11,6 +11,7 @@ from hivemind.proto.runtime_pb2_grpc import ConnectionHandlerStub
 
															 import hivemind
														
 
															 from hivemind.utils import MSGPackSerializer
														
 
															 from hivemind.utils.compression import serialize_torch_tensor, deserialize_torch_tensor
														
 
															+from hivemind.utils.asyncio import amap_in_executor, aiter, aenumerate, achain, anext, azip
														
 
															 from hivemind.utils.mpfuture import FutureStateError
														
@@ -138,6 +139,11 @@ def test_tensor_compression(size=(128, 128, 64), alpha=5e-08, beta=0.0008):
 
															     error = deserialize_torch_tensor(serialize_torch_tensor(X, CompressionType.UNIFORM_8BIT)) - X
														
 
															     assert error.square().mean() < beta
														
 
															+    zeros = torch.zeros(5,5)
														
 
															+    for compression_type in CompressionType.values():
														
 
															+        assert deserialize_torch_tensor(serialize_torch_tensor(zeros, compression_type)).isfinite().all()
														
 
															+
														
 
															+
														
 
															 @pytest.mark.forked
														
 
															 @pytest.mark.asyncio
														
 
															 async def test_channel_cache():
														
@@ -252,7 +258,7 @@ def test_split_parts():
 
															     for combined in combined_incomplete, combined_incomplete2, combined_incomplete3:
														
 
															         with pytest.raises(RuntimeError):
														
 
															             deserialize_torch_tensor(combined)
														
 
															-            # note: we rely on this being RuntimeError in hivemind.client.averager.allreduce.AllreduceProtocol
														
 
															+            # note: we rely on this being RuntimeError in hivemind.client.averager.allreduce.AllreduceRunner
														
 
															 def test_generic_data_classes():
														
@@ -267,3 +273,37 @@ def test_generic_data_classes():
 
															     sorted_expirations = sorted([DHTExpiration(value) for value in range(1, 1000)])
														
 
															     sorted_heap_entries = sorted([HeapEntry(DHTExpiration(value), key="any") for value in range(1, 1000)[::-1]])
														
 
															     assert all([entry.expiration_time == value for entry, value in zip(sorted_heap_entries, sorted_expirations)])
														
 
															+
														
 
															+
														
 
															+@pytest.mark.asyncio
														
 
															+async def test_asyncio_utils():
														
 
															+    res = [i async for i, item in aenumerate(aiter('a', 'b', 'c'))]
														
 
															+    assert res == list(range(len(res)))
														
 
															+
														
 
															+    num_steps = 0
														
 
															+    async for elem in amap_in_executor(lambda x: x ** 2, aiter(*range(100)), max_prefetch=5):
														
 
															+        assert elem == num_steps ** 2
														
 
															+        num_steps += 1
														
 
															+    assert num_steps == 100
														
 
															+
														
 
															+    ours = [elem async for elem in amap_in_executor(max, aiter(*range(7)), aiter(*range(-50, 50, 10)), max_prefetch=1)]
														
 
															+    ref = list(map(max, range(7), range(-50, 50, 10)))
														
 
															+    assert ours == ref
														
 
															+
														
 
															+    ours = [row async for row in azip(aiter('a', 'b', 'c'), aiter(1, 2, 3))]
														
 
															+    ref = list(zip(['a', 'b', 'c'], [1, 2, 3]))
														
 
															+    assert ours == ref
														
 
															+
														
 
															+    async def _aiterate():
														
 
															+        yield 'foo'
														
 
															+        yield 'bar'
														
 
															+        yield 'baz'
														
 
															+
														
 
															+    iterator = _aiterate()
														
 
															+    assert (await anext(iterator)) == 'foo'
														
 
															+    tail = [item async for item in iterator]
														
 
															+    assert tail == ['bar', 'baz']
														
 
															+    with pytest.raises(StopAsyncIteration):
														
 
															+        await anext(iterator)
														
 
															+
														
 
															+    assert [item async for item in achain(_aiterate(), aiter(*range(5)))] == ['foo', 'bar', 'baz'] + list(range(5))
														
--- a/tests/test_utils/__init__.py
+++ b/tests/test_utils/__init__.py
@@ -0,0 +1,194 @@
 
															+import asyncio
														
 
															+import functools
														
 
															+import os
														
 
															+import subprocess
														
 
															+import time
														
 
															+import uuid
														
 
															+from contextlib import asynccontextmanager
														
 
															+from typing import NamedTuple
														
 
															+from pkg_resources import resource_filename
														
 
															+
														
 
															+from multiaddr import Multiaddr, protocols
														
 
															+
														
 
															+from hivemind import find_open_port
														
 
															+from hivemind.p2p.p2p_daemon_bindings.p2pclient import Client
														
 
															+
														
 
															+
														
 
															+TIMEOUT_DURATION = 30  # seconds
														
 
															+P2PD_PATH = resource_filename("hivemind", "hivemind_cli/p2pd")
														
 
															+
														
 
															+
														
 
															+async def try_until_success(coro_func, timeout=TIMEOUT_DURATION):
														
 
															+    """
														
 
															+    Keep running ``coro_func`` until the time is out.
														
 
															+    All arguments of ``coro_func`` should be filled, i.e. it should be called without arguments.
														
 
															+    """
														
 
															+    t_start = time.monotonic()
														
 
															+    while True:
														
 
															+        result = await coro_func()
														
 
															+        if result:
														
 
															+            break
														
 
															+        if (time.monotonic() - t_start) >= timeout:
														
 
															+            # timeout
														
 
															+            assert False, f"{coro_func} still failed after `{timeout}` seconds"
														
 
															+        await asyncio.sleep(0.01)
														
 
															+
														
 
															+
														
 
															+class Daemon:
														
 
															+    control_maddr = None
														
 
															+    proc_daemon = None
														
 
															+    log_filename = ""
														
 
															+    f_log = None
														
 
															+    closed = None
														
 
															+
														
 
															+    def __init__(
														
 
															+            self, control_maddr, enable_control, enable_connmgr, enable_dht, enable_pubsub
														
 
															+    ):
														
 
															+        self.control_maddr = control_maddr
														
 
															+        self.enable_control = enable_control
														
 
															+        self.enable_connmgr = enable_connmgr
														
 
															+        self.enable_dht = enable_dht
														
 
															+        self.enable_pubsub = enable_pubsub
														
 
															+        self.is_closed = False
														
 
															+        self._start_logging()
														
 
															+        self._run()
														
 
															+
														
 
															+    def _start_logging(self):
														
 
															+        name_control_maddr = str(self.control_maddr).replace("/", "_").replace(".", "_")
														
 
															+        self.log_filename = f"/tmp/log_p2pd{name_control_maddr}.txt"
														
 
															+        self.f_log = open(self.log_filename, "wb")
														
 
															+
														
 
															+    def _run(self):
														
 
															+        cmd_list = [P2PD_PATH, f"-listen={str(self.control_maddr)}"]
														
 
															+        cmd_list += [f"-hostAddrs=/ip4/127.0.0.1/tcp/{find_open_port()}"]
														
 
															+        if self.enable_connmgr:
														
 
															+            cmd_list += ["-connManager=true", "-connLo=1", "-connHi=2", "-connGrace=0"]
														
 
															+        if self.enable_dht:
														
 
															+            cmd_list += ["-dht=true"]
														
 
															+        if self.enable_pubsub:
														
 
															+            cmd_list += ["-pubsub=true", "-pubsubRouter=gossipsub"]
														
 
															+        self.proc_daemon = subprocess.Popen(
														
 
															+            cmd_list, stdout=self.f_log, stderr=self.f_log, bufsize=0
														
 
															+        )
														
 
															+
														
 
															+    async def wait_until_ready(self):
														
 
															+        lines_head_pattern = (b"Control socket:", b"Peer ID:", b"Peer Addrs:")
														
 
															+        lines_head_occurred = {line: False for line in lines_head_pattern}
														
 
															+
														
 
															+        with open(self.log_filename, "rb") as f_log_read:
														
 
															+
														
 
															+            async def read_from_daemon_and_check():
														
 
															+                line = f_log_read.readline()
														
 
															+                for head_pattern in lines_head_occurred:
														
 
															+                    if line.startswith(head_pattern):
														
 
															+                        lines_head_occurred[head_pattern] = True
														
 
															+                return all([value for _, value in lines_head_occurred.items()])
														
 
															+
														
 
															+            await try_until_success(read_from_daemon_and_check)
														
 
															+
														
 
															+        # sleep for a while in case that the daemon haven't been ready after emitting these lines
														
 
															+        await asyncio.sleep(0.1)
														
 
															+
														
 
															+    def close(self):
														
 
															+        if self.is_closed:
														
 
															+            return
														
 
															+        self.proc_daemon.terminate()
														
 
															+        self.proc_daemon.wait()
														
 
															+        self.f_log.close()
														
 
															+        self.is_closed = True
														
 
															+
														
 
															+
														
 
															+class DaemonTuple(NamedTuple):
														
 
															+    daemon: Daemon
														
 
															+    client: Client
														
 
															+
														
 
															+
														
 
															+class ConnectionFailure(Exception):
														
 
															+    pass
														
 
															+
														
 
															+
														
 
															+@asynccontextmanager
														
 
															+async def make_p2pd_pair_unix(
														
 
															+        enable_control, enable_connmgr, enable_dht, enable_pubsub
														
 
															+):
														
 
															+    name = str(uuid.uuid4())[:8]
														
 
															+    control_maddr = Multiaddr(f"/unix/tmp/test_p2pd_control_{name}.sock")
														
 
															+    listen_maddr = Multiaddr(f"/unix/tmp/test_p2pd_listen_{name}.sock")
														
 
															+    # Remove the existing unix socket files if they are existing
														
 
															+    try:
														
 
															+        os.unlink(control_maddr.value_for_protocol(protocols.P_UNIX))
														
 
															+    except FileNotFoundError:
														
 
															+        pass
														
 
															+    try:
														
 
															+        os.unlink(listen_maddr.value_for_protocol(protocols.P_UNIX))
														
 
															+    except FileNotFoundError:
														
 
															+        pass
														
 
															+    async with _make_p2pd_pair(
														
 
															+            control_maddr=control_maddr,
														
 
															+            listen_maddr=listen_maddr,
														
 
															+            enable_control=enable_control,
														
 
															+            enable_connmgr=enable_connmgr,
														
 
															+            enable_dht=enable_dht,
														
 
															+            enable_pubsub=enable_pubsub,
														
 
															+    ) as pair:
														
 
															+        yield pair
														
 
															+
														
 
															+
														
 
															+@asynccontextmanager
														
 
															+async def make_p2pd_pair_ip4(enable_control, enable_connmgr, enable_dht, enable_pubsub):
														
 
															+    control_maddr = Multiaddr(f"/ip4/127.0.0.1/tcp/{find_open_port()}")
														
 
															+    listen_maddr = Multiaddr(f"/ip4/127.0.0.1/tcp/{find_open_port()}")
														
 
															+    async with _make_p2pd_pair(
														
 
															+            control_maddr=control_maddr,
														
 
															+            listen_maddr=listen_maddr,
														
 
															+            enable_control=enable_control,
														
 
															+            enable_connmgr=enable_connmgr,
														
 
															+            enable_dht=enable_dht,
														
 
															+            enable_pubsub=enable_pubsub,
														
 
															+    ) as pair:
														
 
															+        yield pair
														
 
															+
														
 
															+
														
 
															+@asynccontextmanager
														
 
															+async def _make_p2pd_pair(
														
 
															+        control_maddr,
														
 
															+        listen_maddr,
														
 
															+        enable_control,
														
 
															+        enable_connmgr,
														
 
															+        enable_dht,
														
 
															+        enable_pubsub,
														
 
															+):
														
 
															+    p2pd = Daemon(
														
 
															+        control_maddr=control_maddr,
														
 
															+        enable_control=enable_control,
														
 
															+        enable_connmgr=enable_connmgr,
														
 
															+        enable_dht=enable_dht,
														
 
															+        enable_pubsub=enable_pubsub,
														
 
															+    )
														
 
															+    # wait for daemon ready
														
 
															+    await p2pd.wait_until_ready()
														
 
															+    client = Client(control_maddr=control_maddr, listen_maddr=listen_maddr)
														
 
															+    try:
														
 
															+        async with client.listen():
														
 
															+            yield DaemonTuple(daemon=p2pd, client=client)
														
 
															+    finally:
														
 
															+        if not p2pd.is_closed:
														
 
															+            p2pd.close()
														
 
															+
														
 
															+
														
 
															+async def _check_connection(p2pd_tuple_0, p2pd_tuple_1):
														
 
															+    peer_id_0, _ = await p2pd_tuple_0.identify()
														
 
															+    peer_id_1, _ = await p2pd_tuple_1.identify()
														
 
															+    peers_0 = [pinfo.peer_id for pinfo in await p2pd_tuple_0.list_peers()]
														
 
															+    peers_1 = [pinfo.peer_id for pinfo in await p2pd_tuple_1.list_peers()]
														
 
															+    return (peer_id_0 in peers_1) and (peer_id_1 in peers_0)
														
 
															+
														
 
															+
														
 
															+async def connect_safe(p2pd_tuple_0, p2pd_tuple_1):
														
 
															+    peer_id_1, maddrs_1 = await p2pd_tuple_1.identify()
														
 
															+    await p2pd_tuple_0.connect(peer_id_1, maddrs_1)
														
 
															+    await try_until_success(
														
 
															+        functools.partial(
														
 
															+            _check_connection, p2pd_tuple_0=p2pd_tuple_0, p2pd_tuple_1=p2pd_tuple_1
														
 
															+        )
														
 
															+    )