LSTM + Attention + 파라미터 역학관계

LSTM

! 700

알고리즘

FW

  1. Cell state
    Pasted image 20260515093053.png|4000

    • 위의 그림과 같이 Cell state 를 유지하며 장기기억을 유지함
  2. Forget gate
    Pasted image 20260515092919.png|700

    • 이전 시점의 Output과 현재 시점의 Input을 입력으로 받아 concat
    • activation을 통해 vector를 0~1 사이의 vector로 바꾸고, 그를 장기기억과 곱해주어 특정 벡터는 1에 가까운 값을 곱해 유지하고 특정 벡터는 0에 가까운 값을 곱해 지우는 식으로 효율적인 장기기억 관리
  3. Input gate
    Pasted image 20260515093538.png|4000

    • 현재 시점의 데이터를 이전 시점 아웃풋과 concat
    • activation 을 통해 어떤 것을 새로 기억할지 결정
    • tanh 를 통해 들어온 입력을 비선형화
    • 두 값을 곱하여, 장기기억에 기억할 내용을 효율적으로 저장
  4. Forget과 Input의 조합
    Pasted image 20260515094009.png|4000

    • 이전 장기기억에서 특정 내용 제거
    • 현재 입력에서 어떤 것을 장기기억에 넣을지 결정
  5. Output gate
    Pasted image 20260515094112.png|4000

    • 어떤 것을 단기기억으로 저장할지를 결정하는 activation
    • 이전에 만든 장기기억을 tanh 로 비선형화를 하고 activation 한 값과 내적하여 원하는 내용만 단기기억으로 보냄

BW

Attention

개요

핵심 매커니즘 (Q, K, V)

비유

요소 정의 비유
Query (Q) 영향을 주는 주체 (현재 찾고자 하는 정보) 검색창에 입력한 검색어
Key (K) 영향을 받는 대상의 식별자 (데이터의 주소/특징) 검색 결과물들의 제목/태그
Value (V) 데이터의 실제 내용 검색 결과의 상세 내용

알고리즘

  1. 유사도 계산: Query와 Key 사이의 유사도를 계산 (내적, QKT)
  2. 정규화: 구한 유사도를 0~1 사이의 확률값으로 변환, 어텐션 가중치라고 부름
    • 검색어와 검색 결과 제목들의 유사도를 계산한다고 비유가능
    • 가장 연관된 검색 결과물에 더 많은 가중치가 높은 행렬이 나타남
  3. 최종값 산출: 어텐션 가중치에 정보를 내적함
    • 가장 유사한 실제 내용(Value)이 더 많이 나오는 행렬이 나오게됨
    • Attention(Q,K,V)=softmax(QKTdk)V

Back propagation

use case

파라미터 역학관계

마지막으로 학습시에 파라미터와 학습의 역학관계에 대해 설명한다.

학습률

배치 사이즈

모델 파라미터 크기

드롭아웃