arXiv논문2026. 06. 02. 10:48

디코더 레이어 스킵(Decoder Layer Skipping)을 통한 대규모 언어 모델(LLMs)의 환각 현상 완화

요약

LLM의 환각 현상이 깊은 디코더 레이어에서 발생한다는 점에 착안하여, 문제가 되는 레이어를 동적으로 건너뛰는 DeLask 프레임워크를 제안합니다. 그래디언트 유사도를 기반으로 오류 레이어를 식별하고 은닉 상태를 결합하여 모델의 신뢰성을 높입니다.

핵심 포인트

환각 현상이 깊은 디코더 레이어에서 발생함을 규명
그래디언트 유사도를 이용한 '표류 값(driftance value)' 정의
오류 레이어를 동적으로 건너뛰는 DeLask 프레임워크 제안
레이어 은닉 상태의 부분 결합을 통한 오류 억제 및 일관성 유지
다양한 LLM 벤치마크에서 환각 완화 및 강건성 입증

대규모 언어 모델(Large Language Models, LLMs)은 다양한 자연어 작업에서 강력한 성능을 달성했으나, 출력 결과가 사실 정보와 일치하지 않는 환각(hallucinations) 현상을 자주 겪습니다. 본 연구에서는 디코딩(decoding) 과정에 대한 포괄적인 레이어별(layer-wise) 분석을 수행하여, 환각이 더 깊은 디코더 레이어(decoder layers)에서 발생하는 경향이 있음을 밝혀냈습니다. 이 문제를 해결하기 위해, 우리는 환각을 생성하기 쉬운 레이어를 동적으로 건너뛰는 새로운 디코딩 프레임워크인 \textbf{DeLask} (\textbf{De}coder \textbf{La}yer \textbf{Sk}ipping)를 소개합니다. DeLask은 $L$-레이어 트랜스포머(Transformer)의 순전파(forward) 연산이 조건부로 $L$ 단계의 경사 하강법(gradient descent)과 동일하다는 이론적 통찰을 활용합니다. 우리는 연속적인 디코더 단계에서 유도된 그래디언트(gradients) 사이의 코사인 유사도(cosine similarity)를 계산하여 \emph{표류 값(driftance value)}을 정의하며, 하강 방향이 반전될 때 문제가 되는 레이어를 식별합니다. DeLask은 이러한 레이어를 완전히 버리는 대신, 해당 레이어의 은닉 상태(hidden states)를 이전 레이어들과 부분적으로 결합함으로써, 오류 신호를 억제하는 동시에 일관성을 유지합니다. 다양한 LLM 및 벤치마크에 걸친 광범위한 실험을 통해, DeLask이 일관되게 환각을 완화하고 전반적인 신뢰성을 향상시킨다는 것을 입증하였으며, 이는 대규모 언어 모델의 강건성(robustness)을 개선하기 위한 경량화되고 일반화 가능한 디코딩 프레임워크를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

디코더 레이어 스킵(Decoder Layer Skipping)을 통한 대규모 언어 모델(LLMs)의 환각 현상 완화

요약

핵심 포인트

댓글