Dev.to헤드라인2026. 06. 21. 21:27

Attention From Scratch: Transformer가 모든 것을 한 번에 읽는 방법

요약

Transformer 모델의 핵심 메커니즘인 Self-Attention의 작동 원리를 설명합니다. Query, Key, Value 벡터를 활용한 유사도 계산부터 Softmax를 통한 가중치 산출 과정을 다룹니다.

핵심 포인트

Self-Attention은 각 토큰이 다른 모든 토큰과의 관계를 계산하는 방식입니다.
Query와 Key의 내적을 통해 토큰 간의 유사도 점수를 구합니다.
Softmax를 적용하여 가중치를 합계 1로 정규화합니다.
최종적으로 Value 벡터들의 가중합을 통해 문맥 벡터를 생성합니다.

Attention은 NLP를 LLM으로 변화시킨 아이디어입니다. 과장된 부분을 걷어내고 보면 매우 단순합니다. 각 단어가 다른 모든 단어를 살펴보고 얼마나 신경을 쓸지 결정하는 것입니다. 여기 실제로 계산되고 시각화된 self-attention (자기 주의 집중)이 있습니다.

🔭 단어를 클릭하여 확인하세요: https://dev48v.infy.uk/dl/day12-attention.html

Query, Key, Value

모든 토큰 (token)은 세 개의 벡터를 가집니다. 단어 A가 단어 B에 얼마나 주의를 기울일지 결정하려면, A의 **Query (쿼리)**와 B의 **Key (키)**의 내적 (dot product)을 구하면 됩니다. 이것이 유사도 점수 (similarity score)가 됩니다.

Scale + softmax

점수들을 안정적으로 유지하기 위해 √(dimension)으로 나누고, 그 다음 softmax (소프트맥스)를 적용하여 합계가 1이 되는 가중치 (weights)로 만듭니다. 높은 가중치는 곧 "여기에 주의를 기울이라"는 의미입니다.

The context vector (문맥 벡터)

각 단어의 출력값은 모든 Value (값) 벡터들의 가중합 (weighted sum)입니다. 따라서 "the cat sat... because it was tired"에서 "it"은 주로 "cat"으로 구성됩니다. 모델은 attention (어텐션)만으로 이 지칭 대상을 해결합니다.

여러 개의 헤드 (heads, 서로 다른 관점)를 쌓고 positional encoding (위치 인코딩, 순서)을 더하면 GPT와 BERT의 기반이 되는 Transformer (트랜스포머) 블록이 됩니다.

🔨 실시간 수치를 포함한 전체 빌드 (Q·K → scale → softmax → weighted sum → multi-head): https://dev48v.infy.uk/dl/day12-attention.html

DeepLearningFromZero의 일부입니다. 🌐 https://dev48v.infy.uk

AI 자동 생성 콘텐츠

원문 바로가기

Attention From Scratch: Transformer가 모든 것을 한 번에 읽는 방법

요약

핵심 포인트

Query, Key, Value

Scale + softmax

The context vector (문맥 벡터)

댓글