il y a 2 ans · f5ca10ab23
--- a/hivemind/compression/quantization.py
+++ b/hivemind/compression/quantization.py
@@ -1,4 +1,3 @@
 
				-import importlib.util
			
 
				 import math
			
 
				 import os
			
 
				 import warnings
			
@@ -9,13 +8,11 @@ from typing import Tuple
 
				 import numpy as np
			
 
				 import torch
			
 
				 
			
 
				-if importlib.util.find_spec("bitsandbytes") is not None:
			
 
				-    warnings.filterwarnings("ignore", module="bitsandbytes", category=UserWarning)
			
 
				-    from bitsandbytes.functional import quantize_blockwise, dequantize_blockwise
			
 
				-
			
 
				 from hivemind.compression.base import CompressionBase, CompressionInfo
			
 
				 from hivemind.proto import runtime_pb2
			
 
				 
			
 
				+warnings.filterwarnings("ignore", module="bitsandbytes", category=UserWarning)
			
 
				+
			
 
				 EXECUTOR = ThreadPoolExecutor(max_workers=int(os.environ.get("QUANTIZATION_THREADS", 128)))
			
 
				 
			
 
				 
			
@@ -133,9 +130,12 @@ class BlockwiseQuantization(Quantization):
 
				         self, tensor: torch.Tensor, allow_inplace: bool = False
			
 
				     ) -> Tuple[np.ndarray, Tuple[np.ndarray, np.ndarray]]:
			
 
				         try:
			
 
				-            quantized, (absmax, codebook) = quantize_blockwise(tensor)
			
 
				-        except NameError:
			
 
				+            # This runs actual import only on the 1st call, copies references after that
			
 
				+            from bitsandbytes.functional import quantize_blockwise
			
 
				+        except ImportError:
			
 
				             raise ImportError(BNB_MISSING_MESSAGE)
			
 
				+
			
 
				+        quantized, (absmax, codebook) = quantize_blockwise(tensor)
			
 
				         return quantized.numpy(), (absmax.numpy(), codebook.numpy())
			
 
				 
			
 
				     def compress(self, tensor: torch.Tensor, info: CompressionInfo, allow_inplace: bool = False) -> runtime_pb2.Tensor:
			
@@ -163,6 +163,11 @@ class BlockwiseQuantization(Quantization):
 
				         )
			
 
				 
			
 
				     def extract(self, serialized_tensor: runtime_pb2.Tensor) -> torch.Tensor:
			
 
				+        try:
			
 
				+            from bitsandbytes.functional import dequantize_blockwise
			
 
				+        except ImportError:
			
 
				+            raise ImportError(BNB_MISSING_MESSAGE)
			
 
				+
			
 
				         absmax_size = int(np.frombuffer(serialized_tensor.buffer, count=1, dtype=np.int64))
			
 
				         codebook_size = int(np.frombuffer(serialized_tensor.buffer, offset=8, count=1, dtype=np.int64))
			
 
				         absmax = np.frombuffer(serialized_tensor.buffer, offset=16, count=absmax_size, dtype=self.codebook_dtype)
			
@@ -176,9 +181,6 @@ class BlockwiseQuantization(Quantization):
 
				         absmax = torch.as_tensor(absmax)
			
 
				         codebook = torch.as_tensor(codebook)
			
 
				         quantized = torch.as_tensor(quantized).reshape(tuple(serialized_tensor.size))
			
 
				-        try:
			
 
				-            result = dequantize_blockwise(quantized, (absmax, codebook))  # Always returns a float32 tensor
			
 
				-        except NameError:
			
 
				-            raise ImportError(BNB_MISSING_MESSAGE)
			
 
				+        result = dequantize_blockwise(quantized, (absmax, codebook))  # Always returns a float32 tensor
			
 
				         result = result.to(dtype=getattr(torch, serialized_tensor.dtype))
			
 
				         return result