huggingface · ming0308uk · Apr 28, 2024 · Apr 28, 2024
diff --git a/src/transformers/models/bert/configuration_bert.py b/src/transformers/models/bert/configuration_bert.py
@@ -116,6 +116,7 @@ def __init__(
         position_embedding_type="absolute",
         use_cache=True,
         classifier_dropout=None,
+        embedding_size=None,
         **kwargs,
     ):
         super().__init__(pad_token_id=pad_token_id, **kwargs)
@@ -135,6 +136,7 @@ def __init__(
         self.position_embedding_type = position_embedding_type
         self.use_cache = use_cache
         self.classifier_dropout = classifier_dropout
+        self.embedding_size = embedding_size
 
 
 class BertOnnxConfig(OnnxConfig):

diff --git a/src/transformers/models/bert/modeling_bert.py b/src/transformers/models/bert/modeling_bert.py
@@ -179,6 +179,9 @@ def __init__(self, config):
         self.register_buffer(
             "token_type_ids", torch.zeros(self.position_ids.size(), dtype=torch.long), persistent=False
         )
+        self.embedding_size = config.embedding_size if config.embedding_size else config.hidden_size
+        if self.embedding_size != config.hidden_size:
+            self.embedding_transformation = nn.Linear(self.embedding_size, config.hidden_size)
 
     def forward(
         self,
@@ -211,6 +214,8 @@ def forward(
 
         if inputs_embeds is None:
             inputs_embeds = self.word_embeddings(input_ids)
+        if self.embedding_transformation:
+            inputs_embeds = self.embedding_transformation(inputs_embeds)
         token_type_embeddings = self.token_type_embeddings(token_type_ids)
 
         embeddings = inputs_embeds + token_type_embeddings
@@ -2012,3 +2017,15 @@ def forward(
             hidden_states=outputs.hidden_states,
             attentions=outputs.attentions,
         )
+
+class NoNorm(nn.Module):
+    def __init__(self, feat_size, eps=None):
+        super().__init__()
+        self.bias = nn.Parameter(torch.zeros(feat_size))
+        self.weight = nn.Parameter(torch.ones(feat_size))
+
+    def forward(self, input_tensor: torch.Tensor) -> torch.Tensor:
+        return input_tensor * self.weight + self.bias
+
+
+NORM2FN = {"layer_norm": nn.LayerNorm, "no_norm": NoNorm}
diff --git a/src/transformers/models/roberta/configuration_roberta.py b/src/transformers/models/roberta/configuration_roberta.py
@@ -80,6 +80,8 @@ class RobertaConfig(PretrainedConfig):
             relevant if `config.is_decoder=True`.
         classifier_dropout (`float`, *optional*):
             The dropout ratio for the classification head.
+        embedding_size (`int`, *optional*):
+            The dimension of the vocab embedding. If not set, it is the same as `hidden_size`.
 
     Examples:
 
@@ -118,6 +120,7 @@ def __init__(
         position_embedding_type="absolute",
         use_cache=True,
         classifier_dropout=None,
+        embedding_size=None,
         **kwargs,
     ):
         super().__init__(pad_token_id=pad_token_id, bos_token_id=bos_token_id, eos_token_id=eos_token_id, **kwargs)
@@ -137,6 +140,7 @@ def __init__(
         self.position_embedding_type = position_embedding_type
         self.use_cache = use_cache
         self.classifier_dropout = classifier_dropout
+        self.embedding_size = embedding_size
 
 
 class RobertaOnnxConfig(OnnxConfig):

diff --git a/src/transformers/models/roberta/modeling_roberta.py b/src/transformers/models/roberta/modeling_roberta.py
@@ -85,6 +85,8 @@ def __init__(self, config):
         self.position_embeddings = nn.Embedding(
             config.max_position_embeddings, config.hidden_size, padding_idx=self.padding_idx
         )
+        self.embedding_size = config.embedding_size if config.embedding_size else config.hidden_size
+        self.embedding_transformation = nn.Linear(config.embedding_size, config.hidden_size)
 
     def forward(
         self, input_ids=None, token_type_ids=None, position_ids=None, inputs_embeds=None, past_key_values_length=0
@@ -116,6 +118,10 @@ def forward(
 
         if inputs_embeds is None:
             inputs_embeds = self.word_embeddings(input_ids)
+
+        if self.embedding_size != self.hidden_size:
+            inputs_embeds = self.embedding_transformation(inputs_embeds)
+
         token_type_embeddings = self.token_type_embeddings(token_type_ids)
 
         embeddings = inputs_embeds + token_type_embeddings