소스 검색

move to notes

justheuristic 5 년 전
부모
커밋
8931c56f73
1개의 변경된 파일0개의 추가작업 그리고 1개의 파일을 삭제
  1. 0 1
      tesseract/client/moe.py

+ 0 - 1
tesseract/client/moe.py

@@ -212,7 +212,6 @@ class _RemoteMoECall(torch.autograd.Function):
     @once_differentiable
     def backward(cls, ctx, *grad_outputs_flat: torch.Tensor) -> Tuple[Optional[torch.Tensor], ...]:
         """ Like normal backward, but we ignore any experts that failed during backward pass """
-        #TODO add dummy tensor or something else that ensures that backward pass is not omitted even if inputs do not require grad
         expert_logits, alive_ix, alive_expert_probas = ctx.saved_tensors
         alive_contexts, k_min, timeout = ctx._alive_contexts, ctx._backward_k_min, ctx._backward_timeout