3 years ago · c4d508c00e
--- a/src/server/backend.py
+++ b/src/server/backend.py
@@ -31,7 +31,6 @@ class TransformerBackend(ModuleBackend):
 
															         current_sequence_length = int(cache_metadata[0, 1].item())
														
 
															         with self.memory_cache.use_cache(attention_cache_handle) as cache:
														
 
															             print('METADATA:', cache_metadata, "CACHE ENTRIES:", len(self.memory_cache._allocated_tensors))
														
 
															-            print(inputs[0].shape, cache.shape)
														
 
															             cache[...] += 1
														
 
															             return (inputs[0] + cache.flatten()[0],)
														
--- a/src/server/handler.py
+++ b/src/server/handler.py
@@ -42,4 +42,4 @@ class TransformerConnectionHandler(ConnectionHandler):
 
															                 current_sequence_length += inputs[1].shape[1]
														
 
															         finally:
														
 
															-            print("CLOSED RPC_INFERENCE")
														
 
															+            print("CLOSED RPC_INFERENCE")