4 lat temu · 20e2a3aab2
--- a/arguments.py
+++ b/arguments.py
@@ -12,15 +12,18 @@ class HFTrainerArguments(TrainingArguments):
 
				     per_device_train_batch_size: int = 1
			
 
				     per_device_eval_batch_size: int = 1
			
 
				     gradient_accumulation_steps: int = 1
			
 
				-    seq_length: int = 512
			
 
				-    pad_to_multiple_of: int = 8
			
 
				+    text_seq_length: int = 256
			
 
				+
			
 
				+    # DALLE-specific params
			
 
				+    learning_rate: float = 0.003535
			
 
				+    adam_beta1: float = 0.9
			
 
				+    adam_beta2: float = 0.96
			
 
				+    max_grad_norm: float = 4.0
			
 
				+    weight_decay: float = 0.045
			
 
				 
			
 
				-    learning_rate: float = 0.0025
			
 
				     total_steps: int = 31250  # total number of collaborative SGD updates, used for learning rate schedule
			
 
				     warmup_steps: int = 3125
			
 
				     adam_epsilon: float = 1e-6
			
 
				-    weight_decay: float = 0.01
			
 
				-    max_grad_norm: float = 1.0
			
 
				     clamp_value: float = 10000.0
			
 
				 
			
 
				     fp16: bool = False
			
@@ -103,8 +106,7 @@ class CollaborativeArguments:
 
				 class BasePeerArguments:
			
 
				     """Base arguments that are used for both trainers and for auxiliary peers such as training monitor"""
			
 
				     experiment_prefix: str = field(default="my-model", metadata={"help": "A unique experiment name, used as prefix for all DHT keys"})
			
 
				-    model_config_path: Optional[str] = field(default="./model.json", metadata={"help": "Path to the model config"})
			
 
				-    tokenizer_path: Optional[str] = field(default="./tokenizer", metadata={"help": "Path to the tokenizer"})
			
 
				+    tokenizer_path: Optional[str] = field(default="gpt2", metadata={"help": "Path to the tokenizer"})
			
 
				     cache_dir: Optional[str] = field(default="./cache", metadata={"help": "Path to the cache"})
			
 
				 
			
 
				     authorize: bool = field(default=False, metadata={"help": "Whether or not to use HF authorizer"})
			
--- a/data.py
+++ b/data.py
@@ -0,0 +1,25 @@
 
				+from typing import Optional
			
 
				+
			
 
				+import hivemind
			
 
				+import numpy as np
			
 
				+from datasets import load_dataset
			
 
				+
			
 
				+logger = hivemind.get_logger(__name__)
			
 
				+
			
 
				+
			
 
				+def make_dataset(
			
 
				+    tokenizer,
			
 
				+    *,
			
 
				+    shuffle_buffer_size: int = 10 ** 4,
			
 
				+    shuffle_seed: Optional[int],
			
 
				+    preprocessing_batch_size: int = 256,
			
 
				+    max_sequence_length: int,
			
 
				+):
			
 
				+    ds = load_dataset('laion/laion_100m_vqgan_f8', split='train', streaming=True)
			
 
				+    ds = ds.shuffle(shuffle_buffer_size, seed=shuffle_seed)
			
 
				+    ds = ds.map(lambda item: dict(
			
 
				+        tokenizer(item['caption'], truncation=True, max_length=max_sequence_length),
			
 
				+        image=np.stack([np.frombuffer(encoded, np.int16).astype(np.int64) for encoded in item['code']]),
			
 
				+    ), batched=True, batch_size=preprocessing_batch_size)
			
 
				+    ds = ds.with_format('torch')
			
 
				+    return ds
			
--- a/lib/__init__.py
+++ b/lib/__init__.py
@@ -1,2 +0,0 @@
 
				-from .modules import *
			
 
				-from .models import *
			
--- a/lib/training/hf_trainer.py
+++ b/lib/training/hf_trainer.py
@@ -1,15 +1,12 @@
 
				 """A catch-all module for the dirty hacks required to make HF Trainer work with collaborative training"""
			
 
				-from typing import Optional
			
 
				-
			
 
				 import torch
			
 
				 from torch import nn
			
 
				 from torch.utils.data import DataLoader
			
 
				 from transformers.trainer import Trainer
			
 
				+from hivemind import CollaborativeOptimizer
			
 
				+from hivemind.optim import HivemindGradScaler
			
 
				 from hivemind.utils.logging import get_logger, use_hivemind_log_handler
			
 
				 
			
 
				-from lib.staging.collaborative import CollaborativeOptimizer
			
 
				-from lib.staging.scaler import HivemindGradScaler
			
 
				-
			
 
				 use_hivemind_log_handler("in_root_logger")
			
 
				 logger = get_logger()
			
 
				 LRSchedulerBase = getattr(torch.optim.lr_scheduler, '_LRScheduler', None)
			
@@ -74,7 +71,8 @@ class IgnoreGradManipulations(nn.Module):
 
				         return self.module.forward(*args, **kwargs)
			
 
				 
			
 
				     def zero_grad(self, set_to_none: bool = False) -> None:
			
 
				-        if self.override_zero_grad and all(param.grad.isfinite().all() for param in self.parameters()):
			
 
				+        if self.override_zero_grad and \
			
 
				+                all(param.grad.isfinite().all() for param in self.parameters() if param.requires_grad):
			
 
				             logger.debug("Successfully bypassed zero_grad")
			
 
				         else:
			
 
				             self.module.zero_grad(set_to_none=set_to_none)
			
--- a/run_aux_peer.py
+++ b/run_aux_peer.py
@@ -4,6 +4,7 @@ import time
 
				 
			
 
				 import torch
			
 
				 import wandb
			
 
				+import transformers
			
 
				 from transformers import HfArgumentParser
			
 
				 from huggingface_hub import HfFolder, Repository
			
 
				 from hivemind.utils.logging import get_logger, use_hivemind_log_handler
			
@@ -12,8 +13,11 @@ import utils
 
				 from arguments import AuxiliaryPeerArguments, CollaborativeArguments, HFTrainerArguments
			
 
				 from task import TrainingTask
			
 
				 
			
 
				+
			
 
				+transformers.utils.logging.disable_default_handler()
			
 
				+transformers.utils.logging.enable_propagation()
			
 
				 use_hivemind_log_handler("in_root_logger")
			
 
				-logger = get_logger()
			
 
				+logger = get_logger(__name__)
			
 
				 
			
 
				 
			
 
				 class CheckpointHandler:
			
@@ -56,7 +60,7 @@ class CheckpointHandler:
 
				 
			
 
				     def upload_checkpoint(self, current_loss):
			
 
				         logger.info("Saving model")
			
 
				-        self.task.model.save_pretrained(self.local_path)
			
 
				+        torch.save(self.task.model.state_dict(), f"{self.local_path}/model_state.pt")
			
 
				         logger.info("Saving optimizer")
			
 
				         torch.save(self.task.collaborative_optimizer.opt.state_dict(), f"{self.local_path}/optimizer_state.pt")
			
 
				         self.previous_timestamp = time.time()
			
--- a/run_trainer.py
+++ b/run_trainer.py
@@ -3,7 +3,6 @@
 
				 import os
			
 
				 from pathlib import Path
			
 
				 
			
 
				-
			
 
				 import transformers
			
 
				 from transformers import HfArgumentParser
			
 
				 from hivemind.utils.logging import get_logger, use_hivemind_log_handler
			
@@ -16,8 +15,10 @@ from arguments import TrainingPeerArguments, HFTrainerArguments, CollaborativeAr
 
				 from task import TrainingTask
			
 
				 
			
 
				 
			
 
				+transformers.utils.logging.disable_default_handler()
			
 
				+transformers.utils.logging.enable_propagation()
			
 
				 use_hivemind_log_handler("in_root_logger")
			
 
				-logger = get_logger()
			
 
				+logger = get_logger(__name__)
			
 
				 
			
 
				 
			
 
				 def main():
			
@@ -25,8 +26,8 @@ def main():
 
				     training_peer_args, trainer_args, collab_args = parser.parse_args_into_dataclasses()
			
 
				 
			
 
				     logger.info(f"Trying {len(training_peer_args.initial_peers)} initial peers: {training_peer_args.initial_peers}")
			
 
				-    if len(training_peer_args.initial_peers) == 0:
			
 
				-        logger.warning("Please specify at least one network endpoint in initial peers.")
			
 
				+    # if len(training_peer_args.initial_peers) == 0:
			
 
				+    #     logger.warning("Please specify at least one network endpoint in initial peers.")
			
 
				 
			
 
				     utils.setup_logging(trainer_args)
			
 
				     task = TrainingTask(training_peer_args, trainer_args, collab_args)
			
--- a/task.py
+++ b/task.py
@@ -1,23 +1,41 @@
 
				 import os
			
 
				 from dataclasses import asdict
			
 
				+from itertools import cycle, islice
			
 
				 from pathlib import Path
			
 
				 
			
 
				 import hivemind
			
 
				+import torch
			
 
				 import transformers
			
 
				+from dalle_pytorch import DALLE
			
 
				+from dalle_pytorch.vae import VQGanVAE, download
			
 
				 from hivemind import SizeAdaptiveCompression, Float16Compression, Uniform8BitQuantization
			
 
				-from transformers import AlbertTokenizerFast, get_linear_schedule_with_warmup, DataCollatorForLanguageModeling
			
 
				+from transformers import DataCollatorWithPadding, GPT2TokenizerFast, get_linear_schedule_with_warmup
			
 
				+from torch import nn
			
 
				 
			
 
				 import utils
			
 
				 from arguments import HFTrainerArguments, BasePeerArguments, CollaborativeArguments
			
 
				 from data import make_dataset
			
 
				 from huggingface_auth import authorize_with_huggingface
			
 
				-from lib import LeanAlbertConfig, LeanAlbertForPreTraining
			
 
				-from lib.staging.collaborative import CollaborativeOptimizer
			
 
				 from lib.training.clipped_lamb import LambWithGradientClipping
			
 
				 from lib.training.offload import OffloadOptimizer
			
 
				 
			
 
				-hivemind.use_hivemind_log_handler("in_root_logger")
			
 
				-logger = hivemind.get_logger()
			
 
				+
			
 
				+logger = hivemind.get_logger(__name__)
			
 
				+
			
 
				+# VQGAN with downsampling factor f=8, 8192 codebook entries, and Gumbel quantization
			
 
				+# Note: If you change the URLs below, remove ./cache/* to clear the cache
			
 
				+VQGAN_VAE_PATH = 'https://heibox.uni-heidelberg.de/f/34a747d5765840b5a99d/?dl=1'
			
 
				+VQGAN_VAE_CONFIG_PATH = 'https://heibox.uni-heidelberg.de/f/b24d14998a8d4f19a34f/?dl=1'
			
 
				+
			
 
				+
			
 
				+class ModelWrapper(nn.Module):
			
 
				+    def __init__(self, model):
			
 
				+        super().__init__()
			
 
				+        self.model = model
			
 
				+
			
 
				+    def forward(self, input_ids, attention_mask, image):
			
 
				+        loss = self.model.forward(text=input_ids, image=image, mask=attention_mask, return_loss=True)
			
 
				+        return {'loss': loss}
			
 
				 
			
 
				 
			
 
				 class TrainingTask:
			
@@ -30,8 +48,9 @@ class TrainingTask:
 
				         self.peer_args, self.trainer_args, self.collab_args = peer_args, trainer_args, collab_args
			
 
				         self.validators, self.local_public_key = utils.make_validators(self.peer_args.experiment_prefix)
			
 
				         transformers.set_seed(trainer_args.seed)  # seed used for initialization
			
 
				-        self.config = LeanAlbertConfig.from_pretrained(peer_args.model_config_path)
			
 
				-        self.tokenizer = AlbertTokenizerFast.from_pretrained(peer_args.tokenizer_path, cache_dir=peer_args.cache_dir)
			
 
				+
			
 
				+        self.tokenizer = GPT2TokenizerFast.from_pretrained(peer_args.tokenizer_path)
			
 
				+        self.tokenizer.pad_token = self.tokenizer.eos_token
			
 
				 
			
 
				         output_dir = Path(trainer_args.output_dir)
			
 
				         logger.info(f'Checkpoint dir {output_dir}, contents {list(output_dir.glob("checkpoint*"))}')
			
@@ -39,11 +58,37 @@ class TrainingTask:
 
				 
			
 
				         if latest_checkpoint_dir is None:
			
 
				             logger.info(f"Creating model")
			
 
				-            self.model = LeanAlbertForPreTraining(self.config)
			
 
				-            self.model.resize_token_embeddings(len(self.tokenizer))
			
 
				+
			
 
				+            vae = VQGanVAE(
			
 
				+                vqgan_model_path=download(VQGAN_VAE_PATH, 'vqgan.ckpt', root=peer_args.cache_dir),
			
 
				+                vqgan_config_path=download(VQGAN_VAE_CONFIG_PATH, 'vqgan_config.yaml', root=peer_args.cache_dir),
			
 
				+            )
			
 
				+
			
 
				+            depth = 64
			
 
				+            attn_types = list(islice(cycle(['axial_row', 'axial_col', 'axial_row', 'axial_row']), depth - 1))
			
 
				+            attn_types.append('conv_like')
			
 
				+            shared_layer_ids = list(islice(cycle(range(4)), depth - 1))
			
 
				+            shared_layer_ids.append('w_conv')
			
 
				+            dalle = DALLE(
			
 
				+                vae=vae,
			
 
				+                num_text_tokens=self.tokenizer.vocab_size,
			
 
				+                text_seq_len=trainer_args.text_seq_length,
			
 
				+                dim=1024,
			
 
				+                depth=depth,
			
 
				+                heads=16,
			
 
				+                dim_head=64,
			
 
				+                attn_types=attn_types,
			
 
				+                ff_dropout=0,
			
 
				+                attn_dropout=0,
			
 
				+                shared_attn_ids=shared_layer_ids,
			
 
				+                shared_ff_ids=shared_layer_ids,
			
 
				+                rotary_emb=False,  # FIXME: Fix RuntimeError when True
			
 
				+                reversible=True,
			
 
				+            )
			
 
				+            self.model = ModelWrapper(dalle)
			
 
				         else:
			
 
				             logger.info(f"Loading model from {latest_checkpoint_dir}")
			
 
				-            self.model = LeanAlbertForPreTraining.from_pretrained(latest_checkpoint_dir)
			
 
				+            self.task.model.load_state_dict(torch.load(f"{latest_checkpoint_dir}/model_state.pt"))
			
 
				 
			
 
				     @property
			
 
				     def dht(self):
			
@@ -72,7 +117,7 @@ class TrainingTask:
 
				             averaging_compression = SizeAdaptiveCompression(
			
 
				                 threshold=2 ** 16 + 1, less=Float16Compression(), greater_equal=Uniform8BitQuantization())
			
 
				             state_compression = hivemind.Float16Compression()
			
 
				-            self._collaborative_optimizer = CollaborativeOptimizer(
			
 
				+            self._collaborative_optimizer = hivemind.CollaborativeOptimizer(
			
 
				                 dht=self.dht, opt=opt, scheduler=scheduler, prefix=self.peer_args.experiment_prefix,
			
 
				                 batch_size_per_step=self.trainer_args.batch_size_per_step,
			
 
				                 compression=averaging_compression, state_compression=state_compression,
			
@@ -83,11 +128,13 @@ class TrainingTask:
 
				         no_decay = ["bias", "LayerNorm.weight"]
			
 
				         optimizer_grouped_parameters = [
			
 
				             {
			
 
				-                "params": [p for n, p in self.model.named_parameters() if not any(nd in n for nd in no_decay)],
			
 
				+                "params": [p for n, p in self.model.named_parameters()
			
 
				+                           if not any(nd in n for nd in no_decay) and p.requires_grad],
			
 
				                 "weight_decay": training_args.weight_decay,
			
 
				             },
			
 
				             {
			
 
				-                "params": [p for n, p in self.model.named_parameters() if any(nd in n for nd in no_decay)],
			
 
				+                "params": [p for n, p in self.model.named_parameters()
			
 
				+                           if any(nd in n for nd in no_decay) and p.requires_grad],
			
 
				                 "weight_decay": 0.0,
			
 
				             },
			
 
				         ]
			
@@ -115,12 +162,11 @@ class TrainingTask:
 
				         if self._training_dataset is None:
			
 
				             self._training_dataset = make_dataset(
			
 
				                 self.tokenizer, shuffle_seed=hash(self.local_public_key) % 2 ** 31,
			
 
				-                max_sequence_length=self.trainer_args.seq_length
			
 
				+                max_sequence_length=self.trainer_args.text_seq_length
			
 
				             )
			
 
				         return self._training_dataset
			
 
				 
			
 
				     @property
			
 
				     def data_collator(self):
			
 
				-        return DataCollatorForLanguageModeling(
			
 
				-            tokenizer=self.tokenizer, pad_to_multiple_of=self.trainer_args.pad_to_multiple_of
			
 
				-        )
			
 
				+        return DataCollatorWithPadding(tokenizer=self.tokenizer,
			
 
				+                                       padding='max_length', max_length=self.trainer_args.text_seq_length)
			
--- a/tests/test_ffn.py
+++ b/tests/test_ffn.py
@@ -1,83 +0,0 @@
 
				-import torch
			
 
				-import torch.nn as nn
			
 
				-import torch.nn.functional as F
			
 
				-
			
 
				-from lib.modules.ffn import LeanFFN
			
 
				-
			
 
				-
			
 
				-class ReferenceFFN(nn.Module):
			
 
				-
			
 
				-    def __init__(self,
			
 
				-                 hidden_size: int,
			
 
				-                 intermediate_size: int,
			
 
				-                 activation=F.gelu,
			
 
				-                 layer_norm_eps=1e-12,
			
 
				-                 dropout: float = 0.0):
			
 
				-        super().__init__()
			
 
				-        self.dense_i2h = nn.Linear(hidden_size, intermediate_size)
			
 
				-        self.dense_h2o = nn.Linear(intermediate_size, hidden_size)
			
 
				-        self.layer_norm = nn.LayerNorm(hidden_size, eps=layer_norm_eps)
			
 
				-        self.activation = activation
			
 
				-        self.dropout = dropout
			
 
				-
			
 
				-    def forward(self, input):
			
 
				-        output = self.dense_i2h(self.layer_norm(input))
			
 
				-        output = self.activation(output)
			
 
				-        output = self.dense_h2o(output)
			
 
				-        output = F.dropout(output, self.dropout)
			
 
				-        return output + input
			
 
				-
			
 
				-
			
 
				-def test_ffn_exact_match():
			
 
				-    torch.use_deterministic_algorithms(True)
			
 
				-
			
 
				-    batch_size = 4
			
 
				-    seq_len = 128
			
 
				-    dim = 32
			
 
				-    num_layers = 4
			
 
				-
			
 
				-    baseline_ffn = ReferenceFFN(dim, 4 * dim)
			
 
				-    our_ffn = LeanFFN(dim, 4 * dim)
			
 
				-
			
 
				-    assert our_ffn.load_state_dict(baseline_ffn.state_dict())
			
 
				-
			
 
				-    x = torch.rand(batch_size, seq_len, dim, device='cpu', requires_grad=True)
			
 
				-
			
 
				-    # test outputs
			
 
				-    out_ref = x
			
 
				-    for i in range(num_layers):
			
 
				-        out_ref = baseline_ffn.forward(out_ref)
			
 
				-
			
 
				-    out_our = x
			
 
				-    for i in range(num_layers):
			
 
				-        out_our = our_ffn(out_our)
			
 
				-
			
 
				-    assert torch.allclose(out_our, out_ref)
			
 
				-
			
 
				-    # test grad inputs
			
 
				-    obj = (out_ref * (out_ref + 1)).square().mean()
			
 
				-    grad_ref, = torch.autograd.grad(obj, x)
			
 
				-
			
 
				-    obj = (out_our * (out_our + 1)).square().mean()
			
 
				-    grad_our, = torch.autograd.grad(obj, x)
			
 
				-    assert torch.allclose(grad_ref, grad_our)
			
 
				-
			
 
				-    # test grad params
			
 
				-    x = torch.rand(batch_size, seq_len, dim, device='cpu', requires_grad=True)
			
 
				-
			
 
				-    out_ref = x
			
 
				-    for i in range(num_layers):
			
 
				-        out_ref = baseline_ffn.forward(out_ref)
			
 
				-
			
 
				-    out_our = x
			
 
				-    for i in range(num_layers):
			
 
				-        out_our = our_ffn(out_our)
			
 
				-
			
 
				-    obj = (out_ref * (out_ref + 1)).square().mean()
			
 
				-    grad_params_ref = torch.autograd.grad(obj, list(baseline_ffn.parameters()))
			
 
				-
			
 
				-    obj = (out_our * (out_our + 1)).square().mean()
			
 
				-    grad_params_our = torch.autograd.grad(obj, list(our_ffn.parameters()))
			
 
				-
			
 
				-    for grad_ref, grad_our in zip(grad_params_ref, grad_params_our):
			
 
				-        assert torch.allclose(grad_ref, grad_our)
			
--- a/tests/test_rotary.py
+++ b/tests/test_rotary.py
@@ -1,70 +0,0 @@
 
				-import torch
			
 
				-
			
 
				-from lib.modules.rotary import get_auxiliary_tensors, RotaryEmbeddings
			
 
				-
			
 
				-
			
 
				-def test_rotary_embeddings():
			
 
				-    batch_size = 11
			
 
				-    seq_len = 50
			
 
				-    nhead = 4
			
 
				-    dim = 1024
			
 
				-    dtype = torch.float32
			
 
				-    device = torch.device('cpu')
			
 
				-    base = 10 ** 4
			
 
				-
			
 
				-    torch.use_deterministic_algorithms(True)
			
 
				-
			
 
				-    # auxiliary tensors
			
 
				-    a, b = get_auxiliary_tensors(seq_len, dim, dtype, device, base)
			
 
				-    x, y = Rotary(dim, base).forward(torch.randn(1, seq_len, dim, device=device))
			
 
				-    assert torch.allclose(a.view_as(x), x, atol=1e-4, rtol=0)
			
 
				-    assert torch.allclose(b.view_as(y), y, atol=1e-4, rtol=0)
			
 
				-
			
 
				-    # full layer outputs
			
 
				-    ref_layer = Rotary(dim, base)
			
 
				-    our_layer = RotaryEmbeddings(dim, base)
			
 
				-    q = torch.randn(batch_size, seq_len, nhead, dim, dtype=dtype, device=device)
			
 
				-    k = torch.randn(batch_size, seq_len, nhead, dim, dtype=dtype, device=device)
			
 
				-
			
 
				-    q_ref, k_ref = apply_rotary_pos_emb(q.permute(1, 0, 2, 3), k.permute(1, 0, 2, 3), *ref_layer(k))
			
 
				-    q_our, k_our = our_layer(q), our_layer(k)
			
 
				-    assert torch.allclose(q_ref.permute(1, 0, 2, 3), q_our, atol=1e-4, rtol=0)
			
 
				-    assert torch.allclose(k_ref.permute(1, 0, 2, 3), k_our, atol=1e-4, rtol=0)
			
 
				-
			
 
				-    # check rotation equivariance of dot product
			
 
				-    original_dot = (q[0, :, 0] * k[0, :, 0]).sum(-1)
			
 
				-    rotated_dot = (our_layer(q)[0, :, 0] * our_layer(k)[0, :, 0]).sum(-1)
			
 
				-    assert torch.allclose(original_dot, rotated_dot, atol=1e-4, rtol=0)
			
 
				-
			
 
				-
			
 
				-class Rotary(torch.nn.Module):
			
 
				-    """ Reference implementation by ElutherAI """
			
 
				-    def __init__(self, dim, base=10000):
			
 
				-        super().__init__()
			
 
				-        inv_freq = 1.0 / (base ** (torch.arange(0, dim, 2).float() / dim))
			
 
				-        self.register_buffer("inv_freq", inv_freq)
			
 
				-        self.seq_len_cached = None
			
 
				-        self.cos_cached = None
			
 
				-        self.sin_cached = None
			
 
				-
			
 
				-    def forward(self, x, seq_dim=1):
			
 
				-        seq_len = x.shape[seq_dim]
			
 
				-        if seq_len != self.seq_len_cached:
			
 
				-            self.seq_len_cached = seq_len
			
 
				-            t = torch.arange(x.shape[seq_dim], device=x.device).type_as(self.inv_freq)
			
 
				-            freqs = torch.einsum("i,j->ij", t, self.inv_freq)
			
 
				-            emb = torch.cat((freqs, freqs), dim=-1).to(x.device)
			
 
				-            self.cos_cached = emb.cos()[:, None, None, :]
			
 
				-            self.sin_cached = emb.sin()[:, None, None, :]
			
 
				-        return self.cos_cached, self.sin_cached
			
 
				-
			
 
				-
			
 
				-def rotate_half(x):
			
 
				-    x1, x2 = x[..., : x.shape[-1] // 2], x[..., x.shape[-1] // 2 :]
			
 
				-    return torch.cat(
			
 
				-        (-x2, x1), dim=x1.ndim - 1
			
 
				-    )  # dim=-1 triggers a bug in torch < 1.8.0
			
 
				-
			
 
				-
			
 
				-def apply_rotary_pos_emb(q, k, cos, sin):
			
 
				-    return (q * cos) + (rotate_half(q) * sin), (k * cos) + (rotate_half(k) * sin)