본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 21. 21:27

Attention From Scratch: Transformer가 모든 것을 한 번에 읽는 방법

요약

Transformer 모델의 핵심 메커니즘인 Self-Attention의 작동 원리를 설명합니다. Query, Key, Value 벡터를 활용한 유사도 계산부터 Softmax를 통한 가중치 산출 과정을 다룹니다.

핵심 포인트

  • Self-Attention은 각 토큰이 다른 모든 토큰과의 관계를 계산하는 방식입니다.
  • Query와 Key의 내적을 통해 토큰 간의 유사도 점수를 구합니다.
  • Softmax를 적용하여 가중치를 합계 1로 정규화합니다.
  • 최종적으로 Value 벡터들의 가중합을 통해 문맥 벡터를 생성합니다.

Attention은 NLP를 LLM으로 변화시킨 아이디어입니다. 과장된 부분을 걷어내고 보면 매우 단순합니다. 각 단어가 다른 모든 단어를 살펴보고 얼마나 신경을 쓸지 결정하는 것입니다. 여기 실제로 계산되고 시각화된 self-attention (자기 주의 집중)이 있습니다.

🔭 단어를 클릭하여 확인하세요: https://dev48v.infy.uk/dl/day12-attention.html

Query, Key, Value

모든 토큰 (token)은 세 개의 벡터를 가집니다. 단어 A가 단어 B에 얼마나 주의를 기울일지 결정하려면, A의 **Query (쿼리)**와 B의 **Key (키)**의 내적 (dot product)을 구하면 됩니다. 이것이 유사도 점수 (similarity score)가 됩니다.

Scale + softmax

점수들을 안정적으로 유지하기 위해 √(dimension)으로 나누고, 그 다음 softmax (소프트맥스)를 적용하여 합계가 1이 되는 가중치 (weights)로 만듭니다. 높은 가중치는 곧 "여기에 주의를 기울이라"는 의미입니다.

The context vector (문맥 벡터)

각 단어의 출력값은 모든 Value (값) 벡터들의 가중합 (weighted sum)입니다. 따라서 "the cat sat... because it was tired"에서 "it"은 주로 "cat"으로 구성됩니다. 모델은 attention (어텐션)만으로 이 지칭 대상을 해결합니다.

여러 개의 헤드 (heads, 서로 다른 관점)를 쌓고 positional encoding (위치 인코딩, 순서)을 더하면 GPT와 BERT의 기반이 되는 Transformer (트랜스포머) 블록이 됩니다.

🔨 실시간 수치를 포함한 전체 빌드 (Q·K → scale → softmax → weighted sum → multi-head): https://dev48v.infy.uk/dl/day12-attention.html

DeepLearningFromZero의 일부입니다. 🌐 https://dev48v.infy.uk

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0