Max Ryabinin
|
339f35f25d
Extra logging
|
преди 3 години |
Max Ryabinin
|
9efff5fa6f
pass -> raise
|
преди 3 години |
Max Ryabinin
|
d5bf507ff6
Don't ban experts for timeout
|
преди 3 години |
Max Ryabinin
|
b9ccbe7b48
Don't ban experts for timeout
|
преди 3 години |
Max Ryabinin
|
1cfd86ac5b
Add timeouts, remove gated for tests
|
преди 3 години |
Max Ryabinin
|
b48220577e
Add server-side gradient accumulation
|
преди 3 години |
Max Ryabinin
|
b26d61b1c4
Add optional offload
|
преди 3 години |
Max Ryabinin
|
9b5ee08bd6
Support FP16
|
преди 3 години |
Max Ryabinin
|
a3918cd063
Reduce DHTHandler metadata storage time
|
преди 3 години |
Max Ryabinin
|
6ca02e21cf
Increase DHTExpiration
|
преди 3 години |
Max Ryabinin
|
40662e3800
Increase timeout
|
преди 3 години |
Max Ryabinin
|
66e387d23c
Increase timeout
|
преди 3 години |
Max Ryabinin
|
d800ff438e
Increase compression
|
преди 3 години |
Max Ryabinin
|
7ffab7740c
Initialize scheduler correctly
|
преди 3 години |
Max Ryabinin
|
61f20884b9
Attempt training without offload
|
преди 3 години |
Max Ryabinin
|
cf108bad0d
Extra debug prints
|
преди 3 години |
Max Ryabinin
|
01273b8241
Extra debug prints
|
преди 3 години |
Max Ryabinin
|
0ff0c689e8
Remove AMP, update lr
|
преди 3 години |
Max Ryabinin
|
04173527c3
hidden_act_gated = True
|
преди 3 години |
Max Ryabinin
|
ff826d7667
Extra collaboration prefix logging
|
преди 4 години |
Max Ryabinin
|
836192eadc
WIP
|
преди 4 години |
Max Ryabinin
|
553ace9353
WIP
|
преди 4 години |
Max Ryabinin
|
ede2be17ca
Fix bugs/circular imports, raise timeouts
|
преди 4 години |
Max Ryabinin
|
5ae492f076
Post-merge fixes
|
преди 4 години |
justheuristic
|
032e8d49fa
port to newer version of hivemind
|
преди 4 години |
Max Ryabinin
|
05c4355f8a
Add DHT listening options to server
|
преди 4 години |
Max Ryabinin
|
5ff2963a75
WIP
|
преди 4 години |
Max Ryabinin
|
ed501dd35a
WIP (arguments, LeanAlbert)
|
преди 4 години |
Max Ryabinin
|
ff610c9222
Change order of Sphinx extensions
|
преди 4 години |
Max Ryabinin
|
5a982ab0c5
Implement server-side averaging
|
преди 4 години |