Skip to content

Latest commit

 

History

History
67 lines (50 loc) · 6.2 KB

LoRA:Low-Rank_Adaptation_of_Large_Languag_ Models.md

File metadata and controls

67 lines (50 loc) · 6.2 KB

LoRA: Low-Rank Adaptation of Large Language Models

$$\max_{\Theta} \sum_{(x, y) \in \mathcal{Z}} \sum_{t=1}^{|y|} \log ( p_{\Phi_0 + \Delta \Phi(\Theta)}(y_t \mid x, y_{<}{t}) )$$

  • https://arxiv.org/abs/2106.09685
  • https://www.ml6.eu/blogpost/low-rank-adaptation-a-technical-deep-dive
  • LoRA is orthogonal to many prior methods and can be combined with many of them, such as prefix-tuning.
  • When adapting to a specific task, Aghajanyan et al. (2020) shows that the pre-trained language models have a low “instrisic dimension” and can still learn efficiently despite a random projection to a smaller subspace.
    • Inspired by this, we hypothesize the updates to the weights also have a low “intrinsic rank” during adaptation.

$$\text{rank}(\Delta W_{n \times k}) \ll \min(n, k)$$

  • Why does this make sense? Large models are trained to capture the general representation of their domain (language for LLMs, audio + language for models like Whisper, and vision for image generation models). These models capture a variety of features which allow them to be used for diverse tasks with reasonable zero-shot accuracy. However, when adapting such a model to a specific task or dataset, only a few features need to be emphasized or re-learnt. This means that the update matrix (ΔW) can be a low-rank matrix.
  • The rank of a matrix is the dimension of the vector space generated by its columns, which is given by the number of linearly independent columns (or rows) in a given matrix. It can be proven that the number of independent columns (known as column rank) is always equal to the number of independent rows (called row rank).
    • Hence, for a matrix A with m rows and n columns (represented as A_mn), $rank(A) \leq \min (m, n)$ $$h=W_0 x+\Delta W x=W_0 x+B A x$$
  • No Additional Inference Latency: The key functional difference is that our learned weights can be merged with the main weights during inference, thus not introducing any latency, which is not the case for the adapter layers.
네, 이 문장은 superposition과 관련이 있습니다. 이 연구 결과가 superposition 이론과 어떻게 연관되는지 설명해드리겠습니다.

낮은 내재적 차원 (Low Intrinsic Dimension):

Aghajanyan et al. (2020)의 연구는 사전 학습된 언어 모델이 낮은 "내재적 차원"을 가지고 있다는 것을 보여줍니다.
이는 모델이 고차원 공간에서 표현되지만, 실제로 중요한 정보는 더 낮은 차원의 부분 공간에 압축되어 있다는 것을 의미합니다.
랜덤 투영 (Random Projection):

연구에서는 모델의 파라미터를 더 작은 부분 공간으로 랜덤하게 투영해도 여전히 효율적으로 학습할 수 있다는 것을 보여줍니다.
이는 모델이 중요한 정보를 매우 효율적으로 인코딩하고 있다는 것을 시사합니다.
Superposition과의 연관성:

Superposition 이론은 신경망이 제한된 수의 뉴런으로 많은 특징을 표현할 수 있다고 주장합니다.
낮은 내재적 차원과 랜덤 투영에 대한 견고성은 모델이 효율적으로 정보를 중첩(superpose)하고 있다는 것을 간접적으로 보여줍니다.
모델이 더 작은 부분 공간에서도 잘 작동한다는 사실은 정보가 고도로 압축되고 중첩되어 있음을 시사합니다.
효율적인 표현:

Superposition은 제한된 리소스로 많은 정보를 표현하는 방법을 설명합니다.
이 연구 결과는 사전 학습된 모델이 이미 매우 효율적인 표현을 학습했다는 것을 보여주며, 이는 superposition의 개념과 일치합니다.
적응 능력:

연구에서 언급된 "특정 작업에 적응"하는 능력은 모델이 중첩된 표현을 유연하게 사용할 수 있음을 시사합니다.
이는 superposition 이론에서 예측하는 바와 같이, 모델이 다양한 특징을 효율적으로 저장하고 필요에 따라 접근할 수 있다는 것을 보여줍니다.
결론적으로, 이 연구 결과는 superposition 이론을 직접적으로 언급하지는 않지만, 모델의 효율적인 정보 인코딩과 표현 능력을 보여줌으로써 superposition의 개념을 간접적으로 지지합니다. 이는 신경망이 어떻게 제한된 리소스로 복잡한 정보를 효과적으로 처리할 수 있는지에 대한 통찰을 제공합니다.

Further questions

  1. Given a parameter budget constraint, which subset of weight matrices in a pre-trained Transformer should we adapt to maximize downstream performance?
    • image
    • This suggests that even a rank of four captures enough information in ∆W such that it is preferable to adapt more weight matrices than adapting a single type of weights with a larger rank.
  2. Is the “optimal” adaptation matrix ∆W really rank-deficient? If so, what is a good rank to use in practice?
    • Rank-Deficient: rank(∆W_nxk) << min(n, k)
    • Directions corresponding to the top singular vector overlap significantly between Ar=8 and Ar=64, while others do not. Specifically, ∆Wv (resp. ∆Wq) of Ar=8 and ∆Wv (resp. ∆Wq) of Ar=64 share a subspace of dimension 1 with normalized similarity > 0.5, providing an explanation of why r = 1 performs quite well in our downstream tasks for GPT-3.
  3. What is the connection between ∆W and W? Does ∆W highly correlate with W? How large is ∆W comparing to W?
    • Second, instead of repeating the top singular directions of W, ∆W only amplifies directions that are not emphasized in W. Third, the amplification factor is rather huge: 21.5 ≈ 6.91/0.32 for r = 4. See Section H.4 for why r = 64 has a smaller amplification factor.
    • This suggests that the low-rank adaptation matrix potentially amplifies the important features for specific downstream tasks that were learned but not emphasized in the general pre-training model.

추가 학습

image

  • d = 4096, r= 16일 때,
    • W(4096, 4096)의 파라미터 수: 4096 ** 2 = 16_777_216
    • A(4096, 16), B(16, 4096) 파라미터 수의 합: 4096 * 16 + 16 * 4096 = 65_536 + 65_536 = 131_072
  • 비율: 131_072 / 16_777_216 = 0.0078125