4 سال پیش · 0ea81fa43b
--- a/examples/albert/run_trainer.py
+++ b/examples/albert/run_trainer.py
@@ -1,7 +1,8 @@
 
				-#!/usr/bin/env python
			
 
				+#!/usr/bin/env python3
			
 
				 
			
 
				 import os
			
 
				 import pickle
			
 
				+import sys
			
 
				 from dataclasses import asdict
			
 
				 from pathlib import Path
			
 
				 
			
@@ -58,36 +59,6 @@ def get_model(training_args, config, tokenizer):
 
				     return model
			
 
				 
			
 
				 
			
 
				-def get_optimizer_and_scheduler(training_args, model):
			
 
				-    no_decay = ["bias", "LayerNorm.weight"]
			
 
				-    optimizer_grouped_parameters = [
			
 
				-        {
			
 
				-            "params": [p for n, p in model.named_parameters() if not any(nd in n for nd in no_decay)],
			
 
				-            "weight_decay": training_args.weight_decay,
			
 
				-        },
			
 
				-        {
			
 
				-            "params": [p for n, p in model.named_parameters() if any(nd in n for nd in no_decay)],
			
 
				-            "weight_decay": 0.0,
			
 
				-        },
			
 
				-    ]
			
 
				-
			
 
				-    opt = Lamb(
			
 
				-        optimizer_grouped_parameters,
			
 
				-        lr=training_args.learning_rate,
			
 
				-        betas=(training_args.adam_beta1, training_args.adam_beta2),
			
 
				-        eps=training_args.adam_epsilon,
			
 
				-        weight_decay=training_args.weight_decay,
			
 
				-        clamp_value=training_args.clamp_value,
			
 
				-        debias=True,
			
 
				-    )
			
 
				-
			
 
				-    scheduler = get_linear_schedule_with_warmup(
			
 
				-        opt, num_warmup_steps=training_args.warmup_steps, num_training_steps=training_args.max_steps
			
 
				-    )
			
 
				-
			
 
				-    return opt, scheduler
			
 
				-
			
 
				-
			
 
				 class CollaborativeCallback(transformers.TrainerCallback):
			
 
				     """
			
 
				     This callback monitors and reports collaborative training progress.
			
@@ -149,9 +120,9 @@ class CollaborativeCallback(transformers.TrainerCallback):
 
				                 )
			
 
				                 logger.info(f"Step #{self.optimizer.local_epoch}")
			
 
				                 logger.info(f"Your current contribution: {self.total_samples_processed} samples")
			
 
				-                logger.info(f"Performance: {samples_per_second} samples per second.")
			
 
				+                logger.info(f"Performance: {samples_per_second:.3f} samples/sec")
			
 
				                 if self.steps:
			
 
				-                    logger.info(f"Local loss: {self.loss / self.steps}")
			
 
				+                    logger.info(f"Local loss: {self.loss / self.steps:.5f}")
			
 
				                 if self.optimizer.local_epoch % self.backup_every_steps == 0:
			
 
				                     self.latest_backup = self.backup_state()
			
 
				 
			
@@ -219,10 +190,7 @@ def main():
 
				         )
			
 
				     )
			
 
				     training_args, dataset_args, collaboration_args, averager_args, tracker_args = parser.parse_args_into_dataclasses()
			
 
				-
			
 
				     logger.info(f"Found {len(collaboration_args.initial_peers)} initial peers: {collaboration_args.initial_peers}")
			
 
				-    if len(collaboration_args.initial_peers) == 0:
			
 
				-        raise ValueError("Please specify at least one network endpoint in initial peers.")
			
 
				 
			
 
				     setup_transformers_logging(training_args.local_rank)
			
 
				     logger.info(f"Training/evaluation parameters:\n{training_args}")
			
@@ -231,7 +199,15 @@ def main():
 
				     set_seed(training_args.seed)
			
 
				 
			
 
				     config = AlbertConfig.from_pretrained(dataset_args.config_path, cache_dir=dataset_args.cache_dir)
			
 
				-    tokenizer = AlbertTokenizerFast.from_pretrained(dataset_args.tokenizer_path, cache_dir=dataset_args.cache_dir)
			
 
				+    try:
			
 
				+        tokenizer = AlbertTokenizerFast.from_pretrained(dataset_args.tokenizer_path, cache_dir=dataset_args.cache_dir)
			
 
				+    except OSError:
			
 
				+        logger.fatal(
			
 
				+            f"No tokenizer data found in {dataset_args.tokenizer_path}, "
			
 
				+            f"please run ./tokenize_wikitext103.py before running this"
			
 
				+        )
			
 
				+        sys.exit(1)
			
 
				+
			
 
				     model = get_model(training_args, config, tokenizer)
			
 
				     model.to(training_args.device)
			
 
				 
			
@@ -239,8 +215,6 @@ def main():
 
				     # This data collator will take care of randomly masking the tokens.
			
 
				     data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer)
			
 
				 
			
 
				-    opt, scheduler = get_optimizer_and_scheduler(training_args, model)
			
 
				-
			
 
				     validators, local_public_key = utils.make_validators(collaboration_args.experiment_prefix)
			
 
				 
			
 
				     dht = DHT(
			
@@ -261,12 +235,41 @@ def main():
 
				 
			
 
				     adjusted_target_batch_size = collaboration_args.target_batch_size - collaboration_args.batch_size_lead
			
 
				 
			
 
				+    # We need to make such a lambda function instead of just an optimizer instance
			
 
				+    # to make hivemind.Optimizer(..., offload_optimizer=True) work
			
 
				+    opt = lambda params: Lamb(
			
 
				+        params,
			
 
				+        lr=training_args.learning_rate,
			
 
				+        betas=(training_args.adam_beta1, training_args.adam_beta2),
			
 
				+        eps=training_args.adam_epsilon,
			
 
				+        weight_decay=training_args.weight_decay,
			
 
				+        clamp_value=training_args.clamp_value,
			
 
				+        debias=True,
			
 
				+    )
			
 
				+
			
 
				+    no_decay = ["bias", "LayerNorm.weight"]
			
 
				+    params = [
			
 
				+        {
			
 
				+            "params": [p for n, p in model.named_parameters() if not any(nd in n for nd in no_decay)],
			
 
				+            "weight_decay": training_args.weight_decay,
			
 
				+        },
			
 
				+        {
			
 
				+            "params": [p for n, p in model.named_parameters() if any(nd in n for nd in no_decay)],
			
 
				+            "weight_decay": 0.0,
			
 
				+        },
			
 
				+    ]
			
 
				+
			
 
				+    scheduler = lambda opt: get_linear_schedule_with_warmup(
			
 
				+        opt, num_warmup_steps=training_args.warmup_steps, num_training_steps=training_args.max_steps
			
 
				+    )
			
 
				+
			
 
				     optimizer = Optimizer(
			
 
				         dht=dht,
			
 
				         run_id=collaboration_args.experiment_prefix,
			
 
				         target_batch_size=adjusted_target_batch_size,
			
 
				         batch_size_per_step=total_batch_size_per_step,
			
 
				         optimizer=opt,
			
 
				+        params=params,
			
 
				         scheduler=scheduler,
			
 
				         matchmaking_time=collaboration_args.matchmaking_time,
			
 
				         averaging_timeout=collaboration_args.averaging_timeout,
			
--- a/examples/albert/run_training_monitor.py
+++ b/examples/albert/run_training_monitor.py
@@ -1,4 +1,4 @@
 
				-#!/usr/bin/env python
			
 
				+#!/usr/bin/env python3
			
 
				 
			
 
				 import time
			
 
				 from dataclasses import asdict, dataclass, field
			
--- a/examples/albert/tokenize_wikitext103.py
+++ b/examples/albert/tokenize_wikitext103.py
@@ -1,4 +1,4 @@
 
				-#!/usr/bin/env python
			
 
				+#!/usr/bin/env python3
			
 
				 """ This script builds a pre-tokenized compressed representation of WikiText-103 using huggingface/datasets """
			
 
				 import random
			
 
				 from functools import partial
			
--- a/hivemind/optim/optimizer.py
+++ b/hivemind/optim/optimizer.py
@@ -197,6 +197,8 @@ class Optimizer(torch.optim.Optimizer):
 
				         shutdown_timeout: float = 5,
			
 
				         verbose: bool = False,
			
 
				     ):
			
 
				+        self._parent_pid = os.getpid()
			
 
				+
			
 
				         client_mode = client_mode if client_mode is None else dht.client_mode
			
 
				         delay_optimizer_step = delay_optimizer_step if delay_optimizer_step is not None else delay_grad_averaging
			
 
				         offload_optimizer = offload_optimizer if offload_optimizer is not None else (params is not None)
			
@@ -262,7 +264,6 @@ class Optimizer(torch.optim.Optimizer):
 
				 
			
 
				         self._should_check_synchronization_on_update = True  # used in self.should_load_state_from_peers
			
 
				         self._schema_hash = self._compute_schema_hash()
			
 
				-        self._parent_pid = os.getpid()
			
 
				 
			
 
				         self.delay_before_state_averaging = PerformanceEMA(alpha=performance_ema_alpha)
			
 
				         # measures the average time from the beginning of self._update_global_epoch to the call to state_averager