justheuristic
|
e8ee28a392
wip: implement grad wrt logits
|
vor 5 Jahren |
justheuristic
|
5cc3cd99c3
wip: implement grad wrt logits
|
vor 5 Jahren |
justheuristic
|
2146fb6d0e
wip: implement grad wrt logits
|
vor 5 Jahren |
justheuristic
|
b79d05e037
wip: implement grad wrt logits
|
vor 5 Jahren |
justheuristic
|
785e115d89
wip: implement grad wrt logits
|
vor 5 Jahren |
justheuristic
|
077ce58323
wip: implement grad wrt logits
|
vor 5 Jahren |
justheuristic
|
c005da2089
wip: implement grad wrt logits
|
vor 5 Jahren |
justheuristic
|
676066baed
wip: implement grad wrt logits
|
vor 5 Jahren |
justheuristic
|
87b2f8b635
wip: implement grad wrt logits
|
vor 5 Jahren |
justheuristic
|
8931c56f73
move to notes
|
vor 5 Jahren |
justheuristic
|
662357fcb3
reweigh grads correctly
|
vor 5 Jahren |
justheuristic
|
153ab20232
change order of grads
|
vor 5 Jahren |
justheuristic
|
284250d00c
change order of grads
|
vor 5 Jahren |
justheuristic
|
c5ee3d6041
only return grad w.r.t. inputs
|
vor 5 Jahren |
justheuristic
|
05e7c92f3d
unpack tuple
|
vor 5 Jahren |
justheuristic
|
5cbcf79b00
list -> tensor
|
vor 5 Jahren |
justheuristic
|
c8889bde96
list -> tensor
|
vor 5 Jahren |
justheuristic
|
8030c075c9
use lists for gatehr
|
vor 5 Jahren |
justheuristic
|
60af3952c9
flag to remove optimizer
|
vor 5 Jahren |
justheuristic
|
80ab75583f
wip: parallel fault-tolerant moe backward pass
|
vor 5 Jahren |
justheuristic
|
2b2ddf8280
wip: parallel fault-tolerant moe backward pass
|
vor 5 Jahren |
justheuristic
|
6fb99c8746
wip: parallel fault-tolerant moe backward pass
|
vor 5 Jahren |
justheuristic
|
c58d08cc06
remove run_and_await_k completely, rename gating_function to moe
|
vor 5 Jahren |