위치 임베딩(Positional Embeddings)이 중요한 이유 — 개발자를 위한 APE, RPE, RoPE 설명 - Insights | Molayo

Self-Attention은 모든 토큰을 다른 모든 토큰과 비교할 수 있습니다.

하지만 한 가지 문제가 있습니다.

그 자체만으로는 토큰의 순서를 알지 못합니다.

이는 심각한 문제입니다. 왜냐하면 “dog bites man(개가 사람을 문다)”과 “man bites dog(사람이 개를 문다)”는 동일한 단어들을 사용하지만 완전히 다른 의미를 갖기 때문입니다.

핵심 아이디어 (Core Idea)

Transformer에는 두 가지 종류의 정보가 필요합니다:

토큰이 무엇인지 (what)

토큰이 어디에 있는지 (where)

토큰 임베딩 (Token embeddings)은 “무엇(what)”을 제공합니다.

위치 임베딩 (Positional embeddings)은 “어디(where)”를 제공합니다.

이것이 중요한 이유는 위치 정보가 없는 어텐션 (Attention)은 순서를 구분하지 못하기 때문입니다.

토큰들을 비교할 수는 있지만, 어떤 토큰이 먼저 왔는지는 자연스럽게 알지 못합니다.

핵심 구조 (The Key Structure)

단순한 위치 임베딩 흐름은 다음과 같습니다:

토큰 임베딩 (Token Embedding) + 위치 정보 (Positional Information) → 입력 표현 (Input Representation)

절대적 위치 임베딩 (Absolute Positional Embedding)의 경우:

E = X + P

여기서:

X = 토큰 임베딩 (token embedding)

P = 위치 임베딩 (positional embedding)

E = 최종 입력 표현 (final input representation)

더 간결하게 표현하면:

Transformer 입력 = 의미 벡터 (meaning vector) + 위치 신호 (position signal)

서로 다른 위치 결정 방식은 위치 신호가 주입되는 방식을 변화시킵니다.

의사 코드 관점 (Pseudo-code View)

기본적인 위치 주입:

tokens = tokenize(text)

x = embedding(tokens)
...

어텐션 기반 위치 결정 방식의 경우:

q = project_query(x)

k = project_key(x)
...

APE는 보통 입력 임베딩을 수정합니다.

RPE는 보통 어텐션 점수 (attention score)를 수정합니다.

RoPE는 보통 Query와 Key를 수정합니다.

이 차이가 핵심입니다.

구체적인 예시 (Concrete Example)

다음 두 문장을 비교해 보세요:

dog bites man

man bites dog

토큰 집합은 동일합니다:

dog, bites, man

하지만 순서가 의미를 바꿉니다.

위치 정보가 없다면, Self-Attention은 토큰 간의 관계는 보지만 내장된 시퀀스 순서는 갖지 못합니다.

위치 정보가 있다면, 각 토큰 표현에는 위치가 포함됩니다.

따라서 위치 1에 있는 “dog”는 위치 3에 있는 “dog”와 다릅니다.

이것이 위치 인코딩 (positional encoding)이 선택 사항이 아닌 이유입니다.

언어 이해를 위해 반드시 필요합니다.

APE: 절대적 위치 임베딩 (Absolute Positional Embedding)

절대적 위치 임베딩 (Absolute Positional Embedding)은 각 위치 인덱스에 벡터를 할당합니다.

위치 1에는 하나의 벡터가 있습니다.

위치 2에는 또 다른 벡터가 있습니다.

위치 3에는 또 다른 벡터가 있습니다.

그 다음 모델은 해당 위치 벡터(position vector)를 토큰 임베딩(token embedding)에 더합니다.

예시:

토큰 임베딩 (Token embedding):

X = [0.2, 0.5]

위치 임베딩 (Position embedding):

P = [0.1, -0.2]

최종 표현 (Final representation):

E = [0.3, 0.3]

APE는 이해하기 쉽습니다.

이것은 다음과 같이 말합니다:

이 토큰은 정확히 이 위치에 있다

APE가 유용한 이유

APE는 단순합니다.

구현하기 쉽습니다.

시퀀스 길이(sequence lengths)가 모델이 학습 중에 보았던 길이와 유사하게 유지될 때 잘 작동합니다.

구현 측면에서, 이는 단순히 다음과 같습니다:

x = token_embedding + position_embedding

이 방식은 비용이 저렴하고 깔끔합니다.

하지만 단순함에는 대가가 따릅니다.

APE는 위치를 고정된 인덱스(fixed index)로 취급합니다.

만약 모델이 학습했을 때보다 훨씬 더 긴 입력을 보게 된다면, 보지 못한 위치(unseen positions)들은 신뢰할 수 없게 될 수 있습니다.

이 점이 APE를 긴 문맥 외삽(long-context extrapolation)에 취약하게 만듭니다.

RPE: 상대적 위치 임베딩 (Relative Positional Embedding)

상대적 위치 임베딩 (Relative Positional Embedding)은 거리에 집중합니다.

다음과 같이 묻는 대신:

이 토큰은 어떤 위치에 있는가?

다음과 같이 묻습니다:

이 두 토큰은 얼마나 떨어져 있는가?

이것은 언어에 있어 종종 더 자연스럽습니다.

주어와 동사는 서로 다른 절대적 위치에 나타날 수 있습니다.

하지만 그들의 상대적 거리와 방향은 여전히 중요합니다.

단순화된 RPE 어텐션 점수(attention score)는 다음과 같습니다:

Aᵢⱼ = (QᵢKⱼᵀ + Rᵢ₋ⱼ) / √d

Rᵢ₋ⱼ는 토큰 i와 토큰 j 사이의 상대적 위치를 나타냅니다.

이는 위치가 어텐션에 직접적인 영향을 미친다는 것을 의미합니다.

구체적인 RPE 예시

가정해 봅시다:

QᵢKⱼᵀ = 12

Rᵢ₋ⱼ = 4

√d = 4

그러면:

Aᵢⱼ = (12 + 4) / 4 = 4

상대적 항(relative term)이 없다면:

Aᵢⱼ = 12 / 4 = 3

따라서 거리 관계가 어텐션 점수를 높였습니다.

이것이 직관적인 원리입니다.

RPE는 모델이 다음과 같이 말할 수 있게 합니다:

이 토큰은 나에 대한 상대적 위치 때문에 더 관련성이 높다.

RoPE: 회전식 위치 임베딩 (Rotary Positional Embedding)

회전식 위치 임베딩 (Rotary Positional Embedding)은 다른 경로를 택합니다.

입력에 위치 벡터를 더하지 않습니다.

대신 위치에 따라 쿼리(Query)와 키(Key) 벡터를 회전시킵니다.

핵심 아이디어:

위치가 회전이 된다

2D 회전 행렬 (2D rotation matrix)은 다음과 같습니다:

Rθ = [[cosθ, -sinθ], [sinθ, cosθ]]

만약 [1, 0]을 90도 회전시킨다면:

[1, 0] → [0, 1]

RoPE는 이 아이디어를 Query와 Key 차원 전체에 적용합니다.

서로 다른 위치는 서로 다른 회전을 부여받습니다.

그러면 어텐션 점수 (attention scores)에는 자연스럽게 상대적 위치가 포함됩니다.

RoPE가 잘 작동하는 이유

RoPE는 절대적 위치 (absolute position)를 사용하여 Q와 K를 회전시킵니다.

하지만 Q와 K가 비교될 때, 점수는 그들의 상대적 위치 차이에 따라 결정됩니다.

핵심 관계식은 다음과 같습니다:

(RθⁱQ)ᵀ(RθʲK) = QᵀRθʲ⁻ⁱK

이는 어텐션 점수에 j - i가 포함되어 있음을 의미합니다.

즉, 상대적 거리 (relative distance)입니다.

따라서 RoPE는 유용한 조합을 제공합니다:

절대적 위치 주입 (absolute-position injection) + 상대적 위치 동작 (relative-position behavior)

이것이 RoPE가 현대 LLM에서 대중화된 이유입니다.

APE vs RPE vs RoPE

APE:

토큰 임베딩 (token embeddings)에 위치 벡터를 더함
단순하고 비용이 저렴함
고정되었거나 알려진 시퀀스 길이에 적합함
긴 문맥 외삽 (long-context extrapolation)에는 취약함

RPE:

어텐션 점수에 상대적 거리 정보를 더함
토큰 간의 거리를 직접 모델링함
가변적인 길이에 유연함
어텐션 구현을 복잡하게 만들 수 있음

RoPE:

위치에 따라 Query와 Key 벡터를 회전시킴
어텐션 내부에서 상대적 거리가 나타나게 함
메모리 효율적임
현대의 긴 문맥 LLM에서 잘 작동함

핵심 차이점:

APE = 나는 어디에 있는가?

RPE = 우리는 얼마나 떨어져 있는가?

RoPE = Q/K를 회전시켜 어텐션에서 거리가 나타나게 함

구현 관점

Transformer 코드를 읽고 있다면, 위치 정보가 모델의 어느 부분에 들어가는지 살펴보세요.

APE는 보통 임베딩 레이어 (embedding layer) 근처에서 나타납니다:

x = token_embedding + position_embedding

RPE는 보통 어텐션 점수 계산 내부에서 나타납니다:

scores = q @ k.T + relative_position_bias

RoPE는 보통 Q와 K 프로젝션 (projection) 이후에 나타납니다:

q = apply_rope(q, positions)

k = apply_rope(k, positions)
...

이것이 개발자를 위한 지름길입니다.

주입 지점 (injection point)을 찾으세요.

그러면 모델이 어떤 위치 결정 방식 (positional method)을 사용하는지 알 수 있습니다.

단순한 관점 vs 실무적 관점

단순한 관점 (Naive view):

위치 임베딩 (Positional embedding)은 모델에게 토큰 순서만을 알려줄 뿐입니다.

실무적 관점 (Practical view):

위치 설계 (Positional design)는 긴 문맥 처리 (long-context behavior), 캐싱 (caching), 메모리 (memory), 그리고 어텐션 품질 (attention quality)에 영향을 미칩니다.

단순한 사고방식 (Naive mindset):

위치 정보 추가 (add positions)
어텐션 실행 (run attention)

실무적인 사고방식 (Practical mindset):

위치 정보가 어텐션에 어떻게 입력될지 선택 (choose how position enters attention)
문맥 길이 고려 (consider context length)
외삽 (extrapolation) 고려
...

이것이 중요한 이유는 위치 인코딩 (positional encoding)이 사소한 디테일이 아니기 때문입니다.

문맥이 길어질 때 모델이 어떻게 동작하는지를 결정합니다.

왜 이것이 다시 중요한가

짧은 입력값은 위치 정보의 취약점을 숨길 수 있습니다.

긴 문맥 모델 (Long-context models)은 그 취약점을 드러냅니다.

위치 정보가 외삽 (extrapolate)이 잘 되지 않는다면, 모델은 학습된 길이 범위를 벗어날 때 불안정해질 수 있습니다.

이것이 현대의 LLM들이 RoPE 변형 모델들과 긴 문맥 확장 (long-context scaling)에 그토록 집중하는 이유입니다.

위치 방식 (position method)은 모델이 긴 프롬프트, 코드 파일, 문서, 그리고 대화를 안정적으로 처리할 수 있는지 여부에 영향을 미칩니다.

중요한 조건과 한계

APE는 구현이 쉽지만 절대적 인덱스 (absolute indices)에 종속됩니다.

RPE는 표현력이 좋지만 어텐션 계산을 복잡하게 만들 수 있습니다.
nRoPE는 효율적이고 실용적이지만, 매우 긴 문맥을 위해서는 여전히 세심한 스케일링 (scaling)이 필요합니다.

또한:

위치 임베딩 (Positional embeddings) 자체가 추론 (reasoning)을 만들어내지는 않습니다.

단지 어텐션이 순서를 사용할 수 있는 방법을 제공할 뿐입니다.

유용한 패턴을 학습하기 위해서는 여전히 모델의 학습 (training)이 필요합니다.

요약 (Takeaway)

셀프 어텐션 (Self-Attention)은 기본적으로 순서를 인식하지 못하기 때문에 위치 정보가 필요합니다.

APE는 임베딩에 절대적 위치 (absolute position)를 더합니다.

RPE는 어텐션 점수 (attention scores)에 상대적 거리 (relative distance)를 더합니다.
nRoPE는 쿼리 (Query)와 키 (Key) 벡터를 회전시켜 상대적 위치가 자연스럽게 나타나도록 합니다.

가장 짧은 정의:

위치 임베딩 (Positional Embedding) = 어텐션이 시퀀스 구조 (sequence structure)를 이해할 수 있게 만드는 순서 신호 (order signal)

위치 정보가 모델의 어디에 입력되는지를 이해한다면, APE, RPE, 그리고 RoPE의 차이를 이해하는 것입니다.

토론 (Discussion)

트랜스포머 (Transformer) 내부 구조를 학습할 때, 어떤 위치 방식이 가장 직관적으로 느껴지나요?

APE, RPE, 아니면 RoPE인가요?

본문은 zeromathai.com에 처음 게시되었습니다.
원문 기사: [https://zeromathai.com/en/advanced-positional-embeddings-en/]

GitHub 리소스
AI 다이어그램, 학습 노트 및 시각적 가이드:
[https://github.com/zeromathai/zeromathai-ai]

위치 임베딩(Positional Embeddings)이 중요한 이유 — 개발자를 위한 APE, RPE, RoPE 설명

요약

핵심 포인트