пре 4 година · c36b5b1a9b
--- a/hivemind/__init__.py
+++ b/hivemind/__init__.py
@@ -3,4 +3,4 @@ from hivemind.dht import *
 
				 from hivemind.server import *
			
 
				 from hivemind.utils import *
			
 
				 
			
 
				-__version__ = '0.8.22'
			
 
				+__version__ = '0.8.23'
			
--- a/hivemind/client/averaging/__init__.py
+++ b/hivemind/client/averaging/__init__.py
@@ -47,6 +47,8 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				       note - this expiration time only applies to looking for group, passing tensors in allreduce may take more time
			
 
				     :param compression_type: optionally compress tensors with this compression algorithm before sending them to peers
			
 
				     :param allreduce_timeout: spend at most this many seconds for allreduce (after group is formed)
			
 
				+    :param averaging_alpha: optional "learning rate" for averaging. If specified, local parameters will be shifted
			
 
				+      towards the (estimated) average by this coefficient. By default, local parameters are set equal to average.
			
 
				     :param request_timeout: when looking for group, wait for a response from leader for at most this many seconds.
			
 
				     :note: request_timeout must be smaller than averaging_expiration to avoid potential deadlocks.
			
 
				     :param chunk_size_bytes: tensors for AllReduce will be divided into chunks of this size (to improve gRPC throughput)
			
@@ -66,8 +68,8 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				 
			
 
				     def __init__(self, averaged_tensors: Sequence[torch.Tensor], dht: hivemind.dht.DHT, *, start: bool,
			
 
				                  prefix: str, target_group_size: int, min_group_size: int = 2, initial_group_bits: Optional[str] = None,
			
 
				-                 averaging_expiration: float = 15, allreduce_timeout: Optional[float] = None,
			
 
				-                 request_timeout: float = 3, chunk_size_bytes: int = 2 ** 16,
			
 
				+                 averaging_expiration: float = 15, request_timeout: float = 3, chunk_size_bytes: int = 2 ** 16,
			
 
				+                 allreduce_timeout: Optional[float] = None, averaging_alpha: float = 1.0,
			
 
				                  compression_type: runtime_pb2.CompressionType = runtime_pb2.CompressionType.NONE,
			
 
				                  listen_on: Endpoint = '0.0.0.0:*', receiver_threads: int = 1, daemon: bool = True,
			
 
				                  channel_options: Optional[Sequence[Tuple[str, Any]]] = None, **kwargs):
			
@@ -95,7 +97,7 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				             prefix=prefix, initial_group_bits=initial_group_bits, target_group_size=target_group_size,
			
 
				             min_group_size=min_group_size, averaging_expiration=averaging_expiration, request_timeout=request_timeout,
			
 
				             chunk_size_bytes=chunk_size_bytes, compression_type=compression_type)
			
 
				-        self.allreduce_timeout = allreduce_timeout
			
 
				+        self.averaging_alpha, self.allreduce_timeout = averaging_alpha, allreduce_timeout
			
 
				         self._running_groups: Dict[GroupID, AllReduceRunner] = {}  # one or more assembled groups that run all-reduce
			
 
				 
			
 
				         self._pipe, self.pipe = mp.Pipe(duplex=True)  # a control pipe used to communicate with a background process
			
@@ -193,8 +195,8 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				                 group_id = allreduce_group.group_id
			
 
				                 self._running_groups[group_id] = allreduce_group
			
 
				                 self._pending_group_assembled.set()
			
 
				-                averaging_deltas = await asyncio.wait_for(allreduce_group.run(), self.allreduce_timeout)
			
 
				-                update_ok = await loop.run_in_executor(None, lambda: self.update_tensors(averaging_deltas, add=True))
			
 
				+                await asyncio.wait_for(allreduce_group.run(), self.allreduce_timeout)
			
 
				+                update_ok = await loop.run_in_executor(None, self.update_tensors, allreduce_group)
			
 
				 
			
 
				                 # averaging is finished, exit the loop
			
 
				                 future.set_result(update_ok)
			
@@ -213,23 +215,20 @@ class DecentralizedAverager(mp.Process, averaging_pb2_grpc.DecentralizedAveragin
 
				                 _ = self._running_groups.pop(group_id, None)
			
 
				                 self._pending_group_assembled.set()
			
 
				 
			
 
				-    def update_tensors(self, tensors: Sequence[torch.Tensor], *, add: bool = False) -> bool:
			
 
				+    def update_tensors(self, allreduce_group: AllReduceRunner) -> bool:
			
 
				         """
			
 
				-        Set or change the values of self.averaged_tensors.
			
 
				+        a private (extendable) method that applies changes from a finished allreduce to local tensors
			
 
				 
			
 
				-        :param tensors: list/tuple of tensors of same shape as self.averaged_tensors
			
 
				-        :param add: if True, add tensors to self.averaged_tensors in-place
			
 
				-          by default, simply write the values of :tensors: to self.averaged_tensors
			
 
				-        :note: if there may be updates running in background, it is recommended to use add=True
			
 
				+        :return: True on success, False on failure
			
 
				         """
			
 
				-        assert len(tensors) == len(self._averaged_tensors)
			
 
				-        with torch.no_grad(), self.lock_averaged_tensors:
			
 
				-            for tensor, update in zip(self._averaged_tensors, tensors):
			
 
				-                if add:
			
 
				-                    tensor += update
			
 
				-                else:
			
 
				-                    tensor[...] = update
			
 
				-        return True
			
 
				+        assert allreduce_group.return_deltas and allreduce_group.future.done()
			
 
				+        averaging_deltas = allreduce_group.future.result()
			
 
				+
			
 
				+        with torch.no_grad(), self.get_tensors() as local_tensors:
			
 
				+            assert len(local_tensors) == len(self._averaged_tensors)
			
 
				+            for tensor, update in zip(local_tensors, averaging_deltas):
			
 
				+                tensor.add_(update, alpha=self.averaging_alpha)
			
 
				+            return True
			
 
				 
			
 
				     @contextlib.contextmanager
			
 
				     def get_tensors(self) -> Sequence[torch.Tensor]:
			
--- a/hivemind/dht/__init__.py
+++ b/hivemind/dht/__init__.py
@@ -21,13 +21,12 @@ from collections import deque
 
				 from concurrent.futures import ThreadPoolExecutor
			
 
				 from typing import List, Tuple, Optional, Sequence, Union, Dict, Deque, NamedTuple, Iterator, Set
			
 
				 
			
 
				-import uvloop
			
 
				 from numpy import nextafter
			
 
				 
			
 
				 from hivemind.client import RemoteExpert
			
 
				 from hivemind.dht.node import DHTNode, DHTID, DHTExpiration
			
 
				 from hivemind.dht.routing import get_dht_time, DHTValue
			
 
				-from hivemind.utils import MPFuture, Endpoint, get_logger, switch_to_uvloop
			
 
				+from hivemind.utils import MPFuture, Endpoint, Hostname, get_logger, switch_to_uvloop, strip_port
			
 
				 
			
 
				 logger = get_logger(__name__)
			
 
				 
			
@@ -181,6 +180,59 @@ class DHT(mp.Process):
 
				     def port(self) -> Optional[int]:
			
 
				         return self._port.value if self._port.value != 0 else None
			
 
				 
			
 
				+    def get_visible_address(self, num_peers: Optional[int] = None, peers: Sequence[Endpoint] = ()) -> Hostname:
			
 
				+        """
			
 
				+        Get this machine's visible address by requesting other peers or using pre-specified network addresses.
			
 
				+        If no parameters are specified, this function will check for manual endpoint; if unavailable, ask 1 random peer.
			
 
				+
			
 
				+        :param num_peers: if specified, ask multiple peers and check that they perceive the same endpoint
			
 
				+        :param peers: if specified, ask these exact peers instead of choosing random known peers
			
 
				+        :note: if this node has no known peers in routing table, one must specify :peers: manually
			
 
				+        """
			
 
				+        assert num_peers is None or peers == (), "please specify either a num_peers or the list of peers, not both"
			
 
				+        assert not isinstance(peers, str) and isinstance(peers, Sequence), "Please send a list / tuple of endpoints"
			
 
				+        future, _future = MPFuture.make_pair()
			
 
				+        self.pipe.send(('_get_visible_address', [], dict(num_peers=num_peers, peers=peers, future=_future)))
			
 
				+        return future.result()
			
 
				+
			
 
				+    async def _get_visible_address(self, node: DHTNode, num_peers: Optional[int], peers: Sequence[Endpoint],
			
 
				+                                   future: Optional[MPFuture]):
			
 
				+        if not peers and (num_peers or not node.protocol.node_info.endpoint):
			
 
				+            # if we can't resolve the endpoint locally, ask one random peer
			
 
				+            peers_and_endpoints = node.protocol.routing_table.get_nearest_neighbors(
			
 
				+                DHTID.generate(), num_peers or 1, exclude=node.node_id)
			
 
				+            peers = tuple(endpoint for node_id, endpoint in peers_and_endpoints)
			
 
				+
			
 
				+        chosen_address = None
			
 
				+        if peers:
			
 
				+            possible_endpoints: Sequence[Optional[Endpoint]] = await asyncio.gather(*(
			
 
				+                node.protocol.get_outgoing_request_endpoint(peer) for peer in peers))
			
 
				+
			
 
				+            for endpoint in possible_endpoints:
			
 
				+                if endpoint is None:
			
 
				+                    continue
			
 
				+                address = strip_port(endpoint)
			
 
				+                if chosen_address is not None and address != chosen_address:
			
 
				+                    logger.warning("At least two peers returned different visible addresses for this node:"
			
 
				+                                   f"{address} and {chosen_address} (keeping the former one)")
			
 
				+                else:
			
 
				+                    chosen_address = address
			
 
				+
			
 
				+            if chosen_address is None:
			
 
				+                logger.warning(f"None of the selected peers responded with an address ({peers})")
			
 
				+
			
 
				+        if node.protocol.node_info.endpoint:
			
 
				+            address = strip_port(node.protocol.node_info.endpoint)
			
 
				+            if chosen_address is not None and address != chosen_address:
			
 
				+                logger.warning(f"Node was manually given endpoint {address} , but other peers report {chosen_address}")
			
 
				+            chosen_address = chosen_address or address
			
 
				+
			
 
				+        if chosen_address:
			
 
				+            future.set_result(chosen_address)
			
 
				+        else:
			
 
				+            future.set_exception(ValueError(f"Can't get address: DHT node has no peers and no public endpoint."
			
 
				+                                            f" Please ensure the node is connected or specify peers=... manually."))
			
 
				+
			
 
				     def declare_experts(self, uids: Sequence[ExpertUID], endpoint: Endpoint, wait: bool = True,
			
 
				                         timeout: Optional[float] = None) -> Dict[ExpertUID, bool]:
			
 
				         """
			
--- a/hivemind/dht/node.py
+++ b/hivemind/dht/node.py
@@ -2,7 +2,7 @@ from __future__ import annotations
 
				 
			
 
				 import asyncio
			
 
				 import random
			
 
				-from collections import defaultdict
			
 
				+from collections import defaultdict, Counter
			
 
				 from dataclasses import dataclass, field
			
 
				 from functools import partial
			
 
				 from typing import Optional, Tuple, List, Dict, DefaultDict, Collection, Union, Set, Awaitable, Callable, Any
			
@@ -11,9 +11,10 @@ from sortedcontainers import SortedSet
 
				 
			
 
				 from hivemind.dht.protocol import DHTProtocol
			
 
				 from hivemind.dht.routing import DHTID, DHTExpiration, DHTKey, get_dht_time, DHTValue, BinaryDHTValue, Subkey
			
 
				-from hivemind.dht.storage import CacheRefreshQueue, DictionaryDHTValue
			
 
				+from hivemind.dht.storage import DictionaryDHTValue
			
 
				 from hivemind.dht.traverse import traverse_dht
			
 
				-from hivemind.utils import Endpoint, LOCALHOST, MSGPackSerializer, get_logger, SerializerBase, ValueWithExpiration
			
 
				+from hivemind.utils import Endpoint, LOCALHOST, MSGPackSerializer, get_logger, SerializerBase
			
 
				+from hivemind.utils.timed_storage import TimedStorage, ValueWithExpiration
			
 
				 
			
 
				 logger = get_logger(__name__)
			
 
				 
			
@@ -67,6 +68,7 @@ class DHTNode:
 
				     chunk_size: int; refresh_timeout: float; cache_locally: bool; cache_nearest: int; cache_refresh_before_expiry: float
			
 
				     cache_on_store: bool; reuse_get_requests: bool; pending_get_requests: DefaultDict[DHTID, SortedSet[_SearchState]]
			
 
				     cache_refresh_task: Optional[asyncio.Task]; cache_refresh_evt: asyncio.Event; cache_refresh_queue: CacheRefreshQueue
			
 
				+    blacklist: Blacklist
			
 
				     # fmt:on
			
 
				 
			
 
				     @classmethod
			
@@ -76,7 +78,9 @@ class DHTNode:
 
				             wait_timeout: float = 5, refresh_timeout: Optional[float] = None, bootstrap_timeout: Optional[float] = None,
			
 
				             cache_locally: bool = True, cache_nearest: int = 1, cache_size=None, cache_refresh_before_expiry: float = 5,
			
 
				             cache_on_store: bool = True, reuse_get_requests: bool = True, num_workers: int = 1, chunk_size: int = 16,
			
 
				-            listen: bool = True, listen_on: Endpoint = "0.0.0.0:*", **kwargs) -> DHTNode:
			
 
				+            blacklist_time: float = 5.0, backoff_rate: float = 2.0,
			
 
				+            listen: bool = True, listen_on: Endpoint = "0.0.0.0:*", endpoint: Optional[Endpoint] = None,
			
 
				+            validate: bool = True, strict: bool = True, **kwargs) -> DHTNode:
			
 
				         """
			
 
				         :param node_id: current node's identifier, determines which keys it will store locally, defaults to random id
			
 
				         :param initial_peers: connects to these peers to populate routing table, defaults to no peers
			
@@ -102,9 +106,14 @@ class DHTNode:
 
				           all concurrent get requests for the same key will reuse the procedure that is currently in progress
			
 
				         :param num_workers: concurrent workers in traverse_dht (see traverse_dht num_workers param)
			
 
				         :param chunk_size: maximum number of concurrent calls in get_many and cache refresh queue
			
 
				+        :param blacklist_time: excludes non-responsive peers from search for this many seconds (set 0 to disable)
			
 
				+        :param backoff_rate: blacklist time will be multiplied by :backoff_rate: for each successive non-response
			
 
				+        :param validate: if True, use initial peers to validate that this node is accessible and synchronized
			
 
				+        :param strict: if True, any error encountered in validation will interrupt the creation of DHTNode
			
 
				         :param listen: if True (default), this node will accept incoming request and otherwise be a DHT "citzen"
			
 
				           if False, this node will refuse any incoming request, effectively being only a "client"
			
 
				         :param listen_on: network interface, e.g. "0.0.0.0:1337" or "localhost:*" (* means pick any port) or "[::]:7654"
			
 
				+        :param endpoint: if specified, this is peer's preferred public endpoint. Otherwise let peers infer endpoint
			
 
				         :param channel_options: options for grpc.aio.insecure_channel, e.g. [('grpc.enable_retries', 0)]
			
 
				           see https://grpc.github.io/grpc/core/group__grpc__arg__keys.html for a list of all options
			
 
				         :param kwargs: extra parameters used in grpc.aio.server
			
@@ -121,19 +130,21 @@ class DHTNode:
 
				         self.refresh_timeout = refresh_timeout
			
 
				         self.cache_locally, self.cache_nearest, self.cache_on_store = cache_locally, cache_nearest, cache_on_store
			
 
				         self.cache_refresh_before_expiry = cache_refresh_before_expiry
			
 
				+        self.blacklist = Blacklist(blacklist_time, backoff_rate)
			
 
				         self.cache_refresh_queue = CacheRefreshQueue()
			
 
				         self.cache_refresh_evt = asyncio.Event()
			
 
				         self.cache_refresh_task = None
			
 
				 
			
 
				         self.protocol = await DHTProtocol.create(self.node_id, bucket_size, depth_modulo, num_replicas, wait_timeout,
			
 
				-                                                 parallel_rpc, cache_size, listen, listen_on, **kwargs)
			
 
				+                                                 parallel_rpc, cache_size, listen, listen_on, endpoint, **kwargs)
			
 
				         self.port = self.protocol.port
			
 
				 
			
 
				         if initial_peers:
			
 
				             # stage 1: ping initial_peers, add each other to the routing table
			
 
				             bootstrap_timeout = bootstrap_timeout if bootstrap_timeout is not None else wait_timeout
			
 
				             start_time = get_dht_time()
			
 
				-            ping_tasks = map(self.protocol.call_ping, initial_peers)
			
 
				+            ping_tasks = set(asyncio.create_task(self.protocol.call_ping(peer, validate=validate, strict=strict))
			
 
				+                             for peer in initial_peers)
			
 
				             finished_pings, unfinished_pings = await asyncio.wait(ping_tasks, return_when=asyncio.FIRST_COMPLETED)
			
 
				 
			
 
				             # stage 2: gather remaining peers (those who respond within bootstrap_timeout)
			
@@ -147,6 +158,10 @@ class DHTNode:
 
				             if not finished_pings:
			
 
				                 logger.warning("DHTNode bootstrap failed: none of the initial_peers responded to a ping.")
			
 
				 
			
 
				+            if strict:
			
 
				+                for task in asyncio.as_completed(finished_pings):
			
 
				+                    await task  # propagate exceptions
			
 
				+
			
 
				             # stage 3: traverse dht to find my own nearest neighbors and populate the routing table
			
 
				             # ... maybe receive some values that we are meant to store (see protocol.update_routing_table)
			
 
				             # note: using asyncio.wait instead of wait_for because wait_for cancels task on timeout
			
@@ -192,11 +207,11 @@ class DHTNode:
 
				         if node_to_endpoint is None:
			
 
				             node_to_endpoint: Dict[DHTID, Endpoint] = dict()
			
 
				             for query in queries:
			
 
				-                node_to_endpoint.update(
			
 
				-                    self.protocol.routing_table.get_nearest_neighbors(query, beam_size, exclude=self.node_id))
			
 
				+                neighbors = self.protocol.routing_table.get_nearest_neighbors(query, beam_size, exclude=self.node_id)
			
 
				+                node_to_endpoint.update(self._filter_blacklisted(dict(neighbors)))
			
 
				 
			
 
				         async def get_neighbors(peer: DHTID, queries: Collection[DHTID]) -> Dict[DHTID, Tuple[Tuple[DHTID], bool]]:
			
 
				-            response = await self.protocol.call_find(node_to_endpoint[peer], queries)
			
 
				+            response = await self._call_find_with_blacklist(node_to_endpoint[peer], queries)
			
 
				             if not response:
			
 
				                 return {query: ([], False) for query in queries}
			
 
				 
			
@@ -433,7 +448,7 @@ class DHTNode:
 
				         # V-- this function will be called every time traverse_dht decides to request neighbors from a remote peer
			
 
				         async def get_neighbors(peer: DHTID, queries: Collection[DHTID]) -> Dict[DHTID, Tuple[Tuple[DHTID], bool]]:
			
 
				             queries = list(queries)
			
 
				-            response = await self.protocol.call_find(node_to_endpoint[peer], queries)
			
 
				+            response = await self._call_find_with_blacklist(node_to_endpoint[peer], queries)
			
 
				             if not response:
			
 
				                 return {query: ([], False) for query in queries}
			
 
				 
			
@@ -480,6 +495,22 @@ class DHTNode:
 
				         else:
			
 
				             pending_requests.discard(finished)
			
 
				 
			
 
				+    async def _call_find_with_blacklist(self, endpoint: Endpoint, keys: Collection[DHTID]):
			
 
				+        """ same as call_find, but skip if :endpoint: is blacklisted; also exclude blacklisted neighbors from result """
			
 
				+        if endpoint in self.blacklist:
			
 
				+            return None
			
 
				+        response = await self.protocol.call_find(endpoint, keys)
			
 
				+        if response:
			
 
				+            self.blacklist.register_success(endpoint)
			
 
				+            return {key: (maybe_value, self._filter_blacklisted(nearest_peers))
			
 
				+                    for key, (maybe_value, nearest_peers) in response.items()}
			
 
				+        else:
			
 
				+            self.blacklist.register_failure(endpoint)
			
 
				+            return None
			
 
				+
			
 
				+    def _filter_blacklisted(self, peer_endpoints: Dict[DHTID, Endpoint]):
			
 
				+        return {peer: endpoint for peer, endpoint in peer_endpoints.items() if endpoint not in self.blacklist}
			
 
				+
			
 
				     def _trigger_cache_refresh(self, search: _SearchState):
			
 
				         """ Called after get request is finished (whether it was found, not found, hit cache, cancelled, or reused) """
			
 
				         if search.found_something and search.source_node_id == self.node_id:
			
@@ -629,3 +660,42 @@ class _SearchState:
 
				 
			
 
				     def __hash__(self):
			
 
				         return hash(self.key_id)
			
 
				+
			
 
				+
			
 
				+class Blacklist:
			
 
				+    """
			
 
				+    A temporary blacklist of non-responding peers with exponential backoff policy
			
 
				+    :param base_time: peers are suspended for this many seconds by default
			
 
				+    :param backoff_rate: suspension time increases by this factor after each successive failure
			
 
				+    """
			
 
				+    def __init__(self, base_time: float, backoff_rate: float, **kwargs):
			
 
				+        self.base_time, self.backoff = base_time, backoff_rate
			
 
				+        self.banned_peers = TimedStorage[Endpoint, int](**kwargs)
			
 
				+        self.ban_counter = Counter()
			
 
				+
			
 
				+    def register_failure(self, peer: Endpoint):
			
 
				+        """ peer failed to respond, add him to blacklist or increase his downtime """
			
 
				+        if peer not in self.banned_peers and self.base_time > 0:
			
 
				+            ban_duration = self.base_time * self.backoff ** self.ban_counter[peer]
			
 
				+            self.banned_peers.store(peer, self.ban_counter[peer], expiration_time=get_dht_time() + ban_duration)
			
 
				+            self.ban_counter[peer] += 1
			
 
				+
			
 
				+    def register_success(self, peer):
			
 
				+        """ peer responded successfully, remove him from blacklist and reset his ban time """
			
 
				+        del self.banned_peers[peer], self.ban_counter[peer]
			
 
				+
			
 
				+    def __contains__(self, peer: Endpoint) -> bool:
			
 
				+        return peer in self.banned_peers
			
 
				+
			
 
				+    def __repr__(self):
			
 
				+        return f"{self.__class__.__name__}(base_time={self.base_time}, backoff={self.backoff}, " \
			
 
				+               f"banned_peers={len(self.banned_peers)})"
			
 
				+
			
 
				+    def clear(self):
			
 
				+        self.banned_peers.clear()
			
 
				+        self.ban_counter.clear()
			
 
				+
			
 
				+
			
 
				+class CacheRefreshQueue(TimedStorage[DHTID, DHTExpiration]):
			
 
				+    """ a queue of keys scheduled for refresh in future, used in DHTNode """
			
 
				+    frozen = True
			
--- a/hivemind/dht/protocol.py
+++ b/hivemind/dht/protocol.py
@@ -10,7 +10,7 @@ from hivemind.dht.routing import RoutingTable, DHTID, BinaryDHTValue, DHTExpirat
 
				 from hivemind.dht.storage import DHTLocalStorage, DictionaryDHTValue
			
 
				 from hivemind.proto import dht_pb2, dht_pb2_grpc as dht_grpc
			
 
				 from hivemind.utils import Endpoint, get_logger, replace_port, MSGPackSerializer, ChannelCache, ValueWithExpiration
			
 
				-from hivemind.utils.grpc import GRPC_KEEPALIVE_OPTIONS
			
 
				+from hivemind.utils import get_dht_time, GRPC_KEEPALIVE_OPTIONS, MAX_DHT_TIME_DISCREPANCY_SECONDS
			
 
				 
			
 
				 logger = get_logger(__name__)
			
 
				 
			
@@ -18,7 +18,7 @@ logger = get_logger(__name__)
 
				 class DHTProtocol(dht_grpc.DHTServicer):
			
 
				     # fmt:off
			
 
				     node_id: DHTID; port: int; bucket_size: int; num_replicas: int; wait_timeout: float; node_info: dht_pb2.NodeInfo
			
 
				-    channel_options: Sequence[Tuple[str, Any]]; server: grpc.aio.Server
			
 
				+    channel_options: Tuple[Tuple[str, Any]]; server: grpc.aio.Server
			
 
				     storage: DHTLocalStorage; cache: DHTLocalStorage; routing_table: RoutingTable; rpc_semaphore: asyncio.Semaphore
			
 
				     # fmt:on
			
 
				 
			
@@ -28,7 +28,8 @@ class DHTProtocol(dht_grpc.DHTServicer):
 
				     @classmethod
			
 
				     async def create(
			
 
				             cls, node_id: DHTID, bucket_size: int, depth_modulo: int, num_replicas: int, wait_timeout: float,
			
 
				-            parallel_rpc: Optional[int] = None, cache_size: Optional[int] = None, listen=True, listen_on='0.0.0.0:*',
			
 
				+            parallel_rpc: Optional[int] = None, cache_size: Optional[int] = None,
			
 
				+            listen=True, listen_on='0.0.0.0:*', endpoint: Optional[Endpoint] = None,
			
 
				             channel_options: Sequence[Tuple[str, Any]] = (), **kwargs) -> DHTProtocol:
			
 
				         """
			
 
				         A protocol that allows DHT nodes to request keys/neighbors from other DHT nodes.
			
@@ -54,10 +55,12 @@ class DHTProtocol(dht_grpc.DHTServicer):
 
				             self.server = grpc.aio.server(**kwargs, options=GRPC_KEEPALIVE_OPTIONS)
			
 
				             dht_grpc.add_DHTServicer_to_server(self, self.server)
			
 
				 
			
 
				-            found_port = self.server.add_insecure_port(listen_on)
			
 
				-            assert found_port != 0, f"Failed to listen to {listen_on}"
			
 
				-            self.node_info = dht_pb2.NodeInfo(node_id=node_id.to_bytes(), rpc_port=found_port)
			
 
				-            self.port = found_port
			
 
				+            self.port = self.server.add_insecure_port(listen_on)
			
 
				+            assert self.port != 0, f"Failed to listen to {listen_on}"
			
 
				+            if endpoint is not None and endpoint.endswith('*'):
			
 
				+                endpoint = replace_port(endpoint, self.port)
			
 
				+            self.node_info = dht_pb2.NodeInfo(node_id=node_id.to_bytes(), rpc_port=self.port,
			
 
				+                                              endpoint=endpoint or dht_pb2.NodeInfo.endpoint.DESCRIPTOR.default_value)
			
 
				             await self.server.start()
			
 
				         else:  # not listening to incoming requests, client-only mode
			
 
				             # note: use empty node_info so peers won't add you to their routing tables
			
@@ -83,32 +86,78 @@ class DHTProtocol(dht_grpc.DHTServicer):
 
				         """ get a DHTStub that sends requests to a given peer """
			
 
				         return ChannelCache.get_stub(peer, dht_grpc.DHTStub, aio=True, options=self.channel_options)
			
 
				 
			
 
				-    async def call_ping(self, peer: Endpoint) -> Optional[DHTID]:
			
 
				+    async def call_ping(self, peer: Endpoint, validate: bool = False, strict: bool = True) -> Optional[DHTID]:
			
 
				         """
			
 
				         Get peer's node id and add him to the routing table. If peer doesn't respond, return None
			
 
				         :param peer: string network address, e.g. 123.123.123.123:1337 or [2a21:6с8:b192:2105]:8888
			
 
				+        :param validate: if True, validates that node's endpoint is available
			
 
				+        :param strict: if strict=True, validation will raise exception on fail, otherwise it will only warn
			
 
				         :note: if DHTProtocol was created with listen=True, also request peer to add you to his routing table
			
 
				 
			
 
				         :return: node's DHTID, if peer responded and decided to send his node_id
			
 
				         """
			
 
				         try:
			
 
				             async with self.rpc_semaphore:
			
 
				-                peer_info = await self._get_dht_stub(peer).rpc_ping(self.node_info, timeout=self.wait_timeout)
			
 
				+                ping_request = dht_pb2.PingRequest(peer=self.node_info, validate=validate)
			
 
				+                time_requested = get_dht_time()
			
 
				+                response = await self._get_dht_stub(peer).rpc_ping(ping_request, timeout=self.wait_timeout)
			
 
				+                time_responded = get_dht_time()
			
 
				         except grpc.aio.AioRpcError as error:
			
 
				-            logger.warning(f"DHTProtocol failed to ping {peer}: {error.code()}")
			
 
				-            peer_info = None
			
 
				-        responded = bool(peer_info and peer_info.node_id)
			
 
				-        peer_id = DHTID.from_bytes(peer_info.node_id) if responded else None
			
 
				+            logger.debug(f"DHTProtocol failed to ping {peer}: {error.code()}")
			
 
				+            response = None
			
 
				+        responded = bool(response and response.peer and response.peer.node_id)
			
 
				+
			
 
				+        if responded and validate:
			
 
				+            try:
			
 
				+                if self.server is not None and not response.available:
			
 
				+                    raise ValidationError(f"peer {peer} couldn't access this node at {response.sender_endpoint} .")
			
 
				+
			
 
				+                if response.dht_time != dht_pb2.PingResponse.dht_time.DESCRIPTOR.default_value:
			
 
				+                    if response.dht_time < time_requested - MAX_DHT_TIME_DISCREPANCY_SECONDS or \
			
 
				+                            response.dht_time > time_responded + MAX_DHT_TIME_DISCREPANCY_SECONDS:
			
 
				+                        raise ValidationError(f"local time must be within {MAX_DHT_TIME_DISCREPANCY_SECONDS} seconds "
			
 
				+                                              f" of others(local: {time_requested:.5f}, peer: {response.dht_time:.5f})")
			
 
				+            except ValidationError as e:
			
 
				+                if strict:
			
 
				+                    raise
			
 
				+                else:
			
 
				+                    logger.warning(repr(e))
			
 
				+
			
 
				+        peer_id = DHTID.from_bytes(response.peer.node_id) if responded else None
			
 
				         asyncio.create_task(self.update_routing_table(peer_id, peer, responded=responded))
			
 
				         return peer_id
			
 
				 
			
 
				-    async def rpc_ping(self, peer_info: dht_pb2.NodeInfo, context: grpc.ServicerContext):
			
 
				+    async def get_outgoing_request_endpoint(self, peer: Endpoint) -> Optional[Endpoint]:
			
 
				+        """ ask this peer how it perceives this node's outgoing request address """
			
 
				+        try:
			
 
				+            async with self.rpc_semaphore:
			
 
				+                ping_request = dht_pb2.PingRequest(peer=None, validate=False)
			
 
				+                response = await self._get_dht_stub(peer).rpc_ping(ping_request, timeout=self.wait_timeout)
			
 
				+                if response.sender_endpoint != dht_pb2.PingResponse.sender_endpoint.DESCRIPTOR.default_value:
			
 
				+                    return response.sender_endpoint
			
 
				+        except grpc.aio.AioRpcError as error:
			
 
				+            logger.debug(f"DHTProtocol failed to ping {peer}: {error.code()}")
			
 
				+
			
 
				+    async def rpc_ping(self, request: dht_pb2.PingRequest, context: grpc.ServicerContext):
			
 
				         """ Some node wants us to add it to our routing table. """
			
 
				-        if peer_info.node_id and peer_info.rpc_port:
			
 
				-            sender_id = DHTID.from_bytes(peer_info.node_id)
			
 
				-            rpc_endpoint = replace_port(context.peer(), new_port=peer_info.rpc_port)
			
 
				-            asyncio.create_task(self.update_routing_table(sender_id, rpc_endpoint))
			
 
				-        return self.node_info
			
 
				+        response = dht_pb2.PingResponse(peer=self.node_info, sender_endpoint=context.peer(),
			
 
				+                                        dht_time=get_dht_time(), available=False)
			
 
				+
			
 
				+        if request.peer and request.peer.node_id and request.peer.rpc_port:
			
 
				+            sender_id = DHTID.from_bytes(request.peer.node_id)
			
 
				+            if request.peer.endpoint != dht_pb2.NodeInfo.endpoint.DESCRIPTOR.default_value:
			
 
				+                sender_endpoint = request.peer.endpoint  # if peer has preferred endpoint, use it
			
 
				+            else:
			
 
				+                sender_endpoint = replace_port(context.peer(), new_port=request.peer.rpc_port)
			
 
				+
			
 
				+            response.sender_endpoint = sender_endpoint
			
 
				+            if request.validate:
			
 
				+                response.available = await self.call_ping(response.sender_endpoint, validate=False) == sender_id
			
 
				+
			
 
				+            asyncio.create_task(self.update_routing_table(sender_id, sender_endpoint,
			
 
				+                                                          responded=response.available or not request.validate))
			
 
				+
			
 
				+        return response
			
 
				 
			
 
				     async def call_store(self, peer: Endpoint, keys: Sequence[DHTID],
			
 
				                          values: Sequence[Union[BinaryDHTValue, DictionaryDHTValue]],
			
@@ -161,14 +210,14 @@ class DHTProtocol(dht_grpc.DHTServicer):
 
				                 asyncio.create_task(self.update_routing_table(peer_id, peer, responded=True))
			
 
				             return response.store_ok
			
 
				         except grpc.aio.AioRpcError as error:
			
 
				-            logger.warning(f"DHTProtocol failed to store at {peer}: {error.code()}")
			
 
				+            logger.debug(f"DHTProtocol failed to store at {peer}: {error.code()}")
			
 
				             asyncio.create_task(self.update_routing_table(self.routing_table.get(endpoint=peer), peer, responded=False))
			
 
				             return None
			
 
				 
			
 
				     async def rpc_store(self, request: dht_pb2.StoreRequest, context: grpc.ServicerContext) -> dht_pb2.StoreResponse:
			
 
				         """ Some node wants us to store this (key, value) pair """
			
 
				         if request.peer:  # if requested, add peer to the routing table
			
 
				-            asyncio.create_task(self.rpc_ping(request.peer, context))
			
 
				+            asyncio.create_task(self.rpc_ping(dht_pb2.PingRequest(peer=request.peer), context))
			
 
				         assert len(request.keys) == len(request.values) == len(request.expiration_time) == len(request.in_cache)
			
 
				         response = dht_pb2.StoreResponse(store_ok=[], peer=self.node_info)
			
 
				         keys = map(DHTID.from_bytes, request.keys)
			
@@ -225,7 +274,7 @@ class DHTProtocol(dht_grpc.DHTServicer):
 
				 
			
 
				             return output
			
 
				         except grpc.aio.AioRpcError as error:
			
 
				-            logger.warning(f"DHTProtocol failed to find at {peer}: {error.code()}")
			
 
				+            logger.debug(f"DHTProtocol failed to find at {peer}: {error.code()}")
			
 
				             asyncio.create_task(self.update_routing_table(self.routing_table.get(endpoint=peer), peer, responded=False))
			
 
				 
			
 
				     async def rpc_find(self, request: dht_pb2.FindRequest, context: grpc.ServicerContext) -> dht_pb2.FindResponse:
			
@@ -234,7 +283,8 @@ class DHTProtocol(dht_grpc.DHTServicer):
 
				         Also return :bucket_size: nearest neighbors from our routing table for each key (whether or not we found value)
			
 
				         """
			
 
				         if request.peer:  # if requested, add peer to the routing table
			
 
				-            asyncio.create_task(self.rpc_ping(request.peer, context))
			
 
				+            asyncio.create_task(self.rpc_ping(dht_pb2.PingRequest(peer=request.peer), context))
			
 
				+
			
 
				         response = dht_pb2.FindResponse(results=[], peer=self.node_info)
			
 
				         for i, key_id in enumerate(map(DHTID.from_bytes, request.keys)):
			
 
				             maybe_item = self.storage.get(key_id)
			
@@ -294,3 +344,7 @@ class DHTProtocol(dht_grpc.DHTServicer):
 
				         else:  # we sent outgoing request and peer did not respond
			
 
				             if node_id is not None and node_id in self.routing_table:
			
 
				                 del self.routing_table[node_id]
			
 
				+
			
 
				+
			
 
				+class ValidationError(Exception):
			
 
				+    """ This exception is thrown if DHT node didn't pass validation by other nodes. """
			
--- a/hivemind/dht/storage.py
+++ b/hivemind/dht/storage.py
@@ -65,6 +65,3 @@ class DHTLocalStorage(TimedStorage[DHTID, Union[BinaryDHTValue, DictionaryDHTVal
 
				             return False
			
 
				 
			
 
				 
			
 
				-class CacheRefreshQueue(TimedStorage[DHTID, DHTExpiration]):
			
 
				-    """ a queue of keys scheduled for refresh in future, used in DHTNode """
			
 
				-    frozen = True
			
--- a/hivemind/proto/dht.proto
+++ b/hivemind/proto/dht.proto
@@ -5,7 +5,7 @@ syntax = "proto3";
 
				 
			
 
				 service DHT {
			
 
				   // find out recipient's DHTID and possibly update its routing table
			
 
				-  rpc rpc_ping(NodeInfo) returns (NodeInfo);
			
 
				+  rpc rpc_ping(PingRequest) returns (PingResponse);
			
 
				 
			
 
				   // request a node to store one or multiple data items (key - value - expiration)
			
 
				   rpc rpc_store(StoreRequest) returns (StoreResponse);
			
@@ -19,6 +19,19 @@ message NodeInfo {
 
				   // if either node_id or port is absent, simply request recipient info (for client-only mode)
			
 
				   bytes node_id = 1;                   // sender's own node id serialized with DHTID.to_bytes()
			
 
				   int32 rpc_port = 2;                  // port to which sender listens for DHT RPCs
			
 
				+  string endpoint = 3;                 // (optional) node's preferred return address
			
 
				+}
			
 
				+
			
 
				+message PingRequest {
			
 
				+  NodeInfo peer = 1;                   // (optional) sender's own node info, same behavior as in DHT.rpc_ping
			
 
				+  bool validate = 2;                   // set to True if sender wants to validate that he is accessible and synchronized
			
 
				+}
			
 
				+
			
 
				+message PingResponse {
			
 
				+  NodeInfo peer = 1;                   // respondent's node id, for you to update routing table
			
 
				+  string sender_endpoint = 2;          // echo sender's visible endpoint - used to infer his ip address
			
 
				+  double dht_time = 3;                 // recipient's local DHT time - used to soft-synchronize peers
			
 
				+  bool available = 4;                  // if validate = True, this flag asserts that the sender is available for ping
			
 
				 }
			
 
				 
			
 
				 message StoreRequest {
			
--- a/hivemind/utils/networking.py
+++ b/hivemind/utils/networking.py
@@ -21,6 +21,12 @@ def replace_port(endpoint: Endpoint, new_port: Port) -> Endpoint:
 
				     return f"{endpoint[:endpoint.rindex(':')]}:{new_port}"
			
 
				 
			
 
				 
			
 
				+def strip_port(endpoint: Endpoint) -> Hostname:
			
 
				+    """ Removes port from the end of endpoint. If port is not specified, does nothing """
			
 
				+    maybe_port = endpoint[endpoint.rindex(':') + 1:]
			
 
				+    return endpoint[:endpoint.rindex(':')] if maybe_port.isdigit() or maybe_port == '*' else endpoint
			
 
				+
			
 
				+
			
 
				 def find_open_port(params=(socket.AF_INET, socket.SOCK_STREAM), opt=(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1)):
			
 
				     """ Finds a tcp port that can be occupied with a socket with *params and use *opt options """
			
 
				     try:
			
--- a/tests/benchmark_dht.py
+++ b/tests/benchmark_dht.py
@@ -34,7 +34,7 @@ def benchmark_dht(num_peers: int, initial_peers: int, num_experts: int, expert_b
 
				     print(f"Sampled {len(expert_uids)} unique ids (after deduplication)")
			
 
				     random.shuffle(expert_uids)
			
 
				 
			
 
				-    print(f"Storing peers to dht in batches of {expert_batch_size}...")
			
 
				+    print(f"Storing experts to dht in batches of {expert_batch_size}...")
			
 
				     successful_stores = total_stores = total_store_time = 0
			
 
				     benchmark_started = time.perf_counter()
			
 
				     endpoints = []
			
--- a/tests/test_dht_experts.py
+++ b/tests/test_dht_experts.py
@@ -2,10 +2,9 @@ import random
 
				 import numpy as np
			
 
				 import pytest
			
 
				 import asyncio
			
 
				-import multiprocessing as mp
			
 
				 
			
 
				 import hivemind
			
 
				-from hivemind import LOCALHOST, UidEndpoint
			
 
				+from hivemind import LOCALHOST, UidEndpoint, strip_port
			
 
				 
			
 
				 
			
 
				 @pytest.mark.forked
			
@@ -21,7 +20,7 @@ def test_store_get_experts():
 
				     expert_uids = [f"my_expert.{i}" for i in range(110)]
			
 
				     batch_size = 10
			
 
				     for batch_start in range(0, len(expert_uids), batch_size):
			
 
				-        you.declare_experts(expert_uids[batch_start: batch_start + batch_size], 'localhost', 1234)
			
 
				+        you.declare_experts(expert_uids[batch_start: batch_start + batch_size], 'localhost:1234')
			
 
				 
			
 
				     found = theguyshetoldyounottoworryabout.get_experts(random.sample(expert_uids, 5) + ['foo', 'bar'])
			
 
				     assert all(res is not None for res in found[:-2]), "Could not find some existing experts"
			
@@ -37,6 +36,22 @@ def test_store_get_experts():
 
				         peer.shutdown()
			
 
				 
			
 
				 
			
 
				+@pytest.mark.forked
			
 
				+def test_dht_get_address(addr=LOCALHOST, dummy_endpoint='123.45.67.89:*'):
			
 
				+    node1 = hivemind.DHT(start=True, listen_on=f"0.0.0.0:*")
			
 
				+    node2 = hivemind.DHT(start=True, listen_on=f"0.0.0.0:*", initial_peers=[f"{addr}:{node1.port}"])
			
 
				+    node3 = hivemind.DHT(start=True, listen_on=f"0.0.0.0:*", initial_peers=[f"{addr}:{node2.port}"])
			
 
				+    assert addr in node3.get_visible_address(num_peers=2)
			
 
				+
			
 
				+    node4 = hivemind.DHT(start=True, listen_on=f"0.0.0.0:*")
			
 
				+    with pytest.raises(ValueError):
			
 
				+        node4.get_visible_address()
			
 
				+    assert node4.get_visible_address(peers=[f'{addr}:{node1.port}']).endswith(addr)
			
 
				+
			
 
				+    node5 = hivemind.DHT(start=True, listen_on=f"0.0.0.0:*", endpoint=f"{dummy_endpoint}")
			
 
				+    assert node5.get_visible_address() == strip_port(dummy_endpoint)
			
 
				+
			
 
				+
			
 
				 @pytest.mark.forked
			
 
				 def test_beam_search(dht_size=20, total_experts=128, batch_size=32, initial_peers=3, beam_size=4, parallel_rpc=256,
			
 
				                      grid_dims=(32, 32, 32)):
			
--- a/tests/test_dht_node.py
+++ b/tests/test_dht_node.py
@@ -9,9 +9,9 @@ import pytest
 
				 import hivemind
			
 
				 from typing import List, Dict
			
 
				 
			
 
				-from hivemind import get_dht_time
			
 
				+from hivemind import get_dht_time, replace_port
			
 
				 from hivemind.dht.node import DHTID, Endpoint, DHTNode, LOCALHOST
			
 
				-from hivemind.dht.protocol import DHTProtocol
			
 
				+from hivemind.dht.protocol import DHTProtocol, ValidationError
			
 
				 from hivemind.dht.storage import DictionaryDHTValue
			
 
				 
			
 
				 
			
@@ -104,6 +104,8 @@ def test_dht_protocol():
 
				         assert recv_dict.data[subkey1] == (protocol.serializer.dumps(value1), expiration)
			
 
				         assert recv_dict.data[subkey2] == (protocol.serializer.dumps(value2), expiration + 5)
			
 
				 
			
 
				+        assert LOCALHOST in loop.run_until_complete(protocol.get_outgoing_request_endpoint(f'{LOCALHOST}:{peer1_port}'))
			
 
				+
			
 
				         if listen:
			
 
				             loop.run_until_complete(protocol.shutdown())
			
 
				         print("DHTProtocol test finished successfully!")
			
@@ -390,3 +392,45 @@ async def test_dhtnode_reuse_get():
 
				     assert (await futures1['k1'])[0] == 123
			
 
				     assert await futures1['k2'] == await futures2['k2'] and (await futures1['k2'])[0] == 567
			
 
				     assert await futures2['k3'] == await futures3['k3'] and (await futures3['k3']) is None
			
 
				+
			
 
				+
			
 
				+@pytest.mark.forked
			
 
				+@pytest.mark.asyncio
			
 
				+async def test_dhtnode_blacklist():
			
 
				+    node1 = await hivemind.DHTNode.create(blacklist_time=999)
			
 
				+    node2 = await hivemind.DHTNode.create(blacklist_time=999, initial_peers=[f"{LOCALHOST}:{node1.port}"])
			
 
				+    node3 = await hivemind.DHTNode.create(blacklist_time=999, initial_peers=[f"{LOCALHOST}:{node1.port}"])
			
 
				+    node4 = await hivemind.DHTNode.create(blacklist_time=999, initial_peers=[f"{LOCALHOST}:{node1.port}"])
			
 
				+
			
 
				+    assert await node2.store('abc', 123, expiration_time=hivemind.get_dht_time() + 99)
			
 
				+    assert len(node2.blacklist.ban_counter) == 0
			
 
				+
			
 
				+    await node3.shutdown()
			
 
				+    await node4.shutdown()
			
 
				+
			
 
				+    assert await node2.store('def', 456, expiration_time=hivemind.get_dht_time() + 99)
			
 
				+
			
 
				+    assert len(node2.blacklist.ban_counter) == 2
			
 
				+
			
 
				+    for banned_peer in node2.blacklist.ban_counter:
			
 
				+        assert any(banned_peer.endswith(str(port)) for port in [node3.port, node4.port])
			
 
				+
			
 
				+    node3_endpoint = await node3.protocol.get_outgoing_request_endpoint(f"{hivemind.LOCALHOST}:{node1.port}")
			
 
				+    node3_endpoint = replace_port(node3_endpoint, node3.port)
			
 
				+    assert await node1.get('abc', latest=True)  # force node1 to crawl dht and discover unresponsive peers
			
 
				+    assert node3_endpoint in node1.blacklist
			
 
				+
			
 
				+    node2_endpoint = await node2.protocol.get_outgoing_request_endpoint(f"{hivemind.LOCALHOST}:{node1.port}")
			
 
				+    node2_endpoint = replace_port(node2_endpoint, node2.port)
			
 
				+    assert await node1.get('abc', latest=True)  # force node1 to crawl dht and discover unresponsive peers
			
 
				+    assert node2_endpoint not in node1.blacklist
			
 
				+
			
 
				+
			
 
				+@pytest.mark.forked
			
 
				+@pytest.mark.asyncio
			
 
				+async def test_dhtnode_validate(fake_endpoint='127.0.0.721:*'):
			
 
				+
			
 
				+    node1 = await hivemind.DHTNode.create(blacklist_time=999)
			
 
				+    with pytest.raises(ValidationError):
			
 
				+        node2 = await hivemind.DHTNode.create(blacklist_time=999, initial_peers=[f"{LOCALHOST}:{node1.port}"],
			
 
				+                                              endpoint=fake_endpoint)