3 éve · d351431e95
--- a/src/client/remote_generation.py
+++ b/src/client/remote_generation.py
@@ -1,10 +1,10 @@
 
															+from typing import List, Optional
														
 
															+
														
 
															 import torch
														
 
															 import torch.nn.functional as F
														
 
															-from typing import List, Optional
														
 
															-
														
 
															-from src.utils.generation_algorithms import DecodingAlgorithm, GreedyAlgorithm, TopKAlgorithm, NucleusAlgorithm
														
 
															-from src.utils.generation_constraints import ABCBloomConstraint, MaxNewTokensConstraint, EosConstraint
														
 
															+from src.utils.generation_algorithms import DecodingAlgorithm, GreedyAlgorithm, NucleusAlgorithm, TopKAlgorithm
														
 
															+from src.utils.generation_constraints import ABCBloomConstraint, EosConstraint, MaxNewTokensConstraint
														
 
															 class RemoteGenerationMixin:
														
--- a/src/client/remote_model.py
+++ b/src/client/remote_model.py
@@ -1,9 +1,7 @@
 
															 # this code is in active development, interfaces may change
														
 
															 import os
														
 
															-import torch
														
 
															 from typing import List, Optional, Tuple, Union
														
 
															-import torch
														
 
															 import hivemind
														
 
															 import torch
														
 
															 import torch.nn as nn
														
@@ -17,8 +15,8 @@ from src.bloom.model import (
 
															     BloomPreTrainedModel,
														
 
															     LMHead,
														
 
															 )
														
 
															-from src.client.remote_sequential import RemoteSequential
														
 
															 from src.client.remote_generation import RemoteGenerationMixin
														
 
															+from src.client.remote_sequential import RemoteSequential
														
 
															 from src.utils.generation_algorithms import DecodingAlgorithm
														
 
															 from src.utils.generation_constraints import ABCBloomConstraint
														
--- a/src/server/backend.py
+++ b/src/server/backend.py
@@ -23,7 +23,7 @@ class TransformerBackend(ModuleBackend):
 
															         for name, buf in self.module.named_buffers():
														
 
															             assert not buf.requires_grad, f"Bloom layer parameters must not accumulate gradients, but {name} does"
														
 
															-        self.inference_pool = TaskPool(self.inference_step, max_batch_size=4096, name=f"{self.name}_inference")
														
 
															+        self.inference_pool = TaskPool(self.inference_step, max_batch_size=1, name=f"{self.name}_inference")
														
 
															     def inference_step(self, cache_metadata: torch.IntTensor, *inputs: torch.Tensor) -> Tuple[torch.Tensor, ...]:
														
 
															         with torch.inference_mode():
														
--- a/src/server/cache.py
+++ b/src/server/cache.py
@@ -25,7 +25,7 @@ class MemoryCache:
 
															     """A shared cache for storing tensors that persist across calls. Main use case: storing past attention KVs"""
														
 
															     def __init__(self, device: Union[str, torch.device], max_size_bytes: Optional[int]):
														
 
															-        self.max_size_bytes = max_size_bytes if max_size_bytes is not None else (2 ** 64 - 1)
														
 
															+        self.max_size_bytes = max_size_bytes if max_size_bytes is not None else (2**64 - 1)
														
 
															         self.device = device
														
 
															         self.lock_metadata, self.size_decreased_event = mp.Lock(), mp.Event()
														
 
															         self._current_size = mp.Value(ctypes.c_int64, 0, lock=False)
														
--- a/src/utils/generation_algorithms.py
+++ b/src/utils/generation_algorithms.py
@@ -1,8 +1,8 @@
 
															-import torch
														
 
															-
														
 
															 from abc import ABC
														
 
															 from typing import Tuple
														
 
															+import torch
														
 
															+
														
 
															 TokenIds = torch.Tensor
														
 
															 HypoIds = torch.Tensor
														
--- a/src/utils/generation_constraints.py
+++ b/src/utils/generation_constraints.py
@@ -1,7 +1,7 @@
 
															-import torch
														
 
															-
														
 
															 from abc import ABC
														
 
															+import torch
														
 
															+
														
 
															 class ABCBloomConstraint(ABC):
														
 
															     """