arXiv논문2026. 06. 29. 11:24

계층별 위치 임베딩 스케일링(LPES)을 통한 Transformer의 위치 편향 완화

요약

LLM의 'lost-in-the-middle' 문제를 해결하기 위해 각 계층에 최적의 스케일링 인자를 할당하는 LPES 방법을 제안합니다. 유전 알고리즘과 베지에 곡선을 활용하여 추가적인 미세 조정이나 지연 시간 없이 위치 어텐션 편향을 효과적으로 완화합니다.

핵심 포인트

계층별 위치 임베딩 스케일링(LPES) 방식 제안
추가 미세 조정 및 추론 지연 없이 어텐션 분포 개선
유전 알고리즘을 통한 최적의 스케일링 인자 탐색
긴 문맥 벤치마크 및 KV 검색 정확도 최대 11.2% 향상

대규모 언어 모델(LLMs)은 긴 문맥(long-context) 입력의 중간에 위치한 중요한 정보가 제대로 표현되지 않거나 손실되는 "lost-in-the-middle" 문제로 여전히 어려움을 겪고 있습니다. 기존 방법들은 멀티 스케일 회전 위치 임베딩(multi-scale rotary position embeddings, RoPE)을 결합하여 이를 해결하려고 시도하지만, 일반적으로 높은 지연 시간(latency)을 초래하거나 최적화되지 않은 수동 설계 스케일링 전략에 의존합니다. 이러한 한계를 극복하기 위해, 우리는 각 계층(layer)에 서로 다른 스케일링 인자를 할당하는 계층별 위치 임베딩 스케일링(layer-specific positional embedding scaling, LPES) 방법을 소개합니다. LPES는 모델 파라미터를 미세 조정(fine-tuning)하거나 추론 지연(inference delay)을 증가시키지 않고도 더욱 균형 잡힌 어텐션(attention) 분포를 달성합니다. 베지에 곡선(Bézier curves)을 통합하여 탐색 공간을 크게 줄임으로써 각 계층에 대한 최적의 스케일링 인자를 효율적으로 선택하기 위해 특별히 설계된 유전 알고리즘(genetic algorithm)이 사용됩니다. 광범위한 실험을 통해 LPES가 위치 어텐션 편향(positional attention bias)을 효과적으로 완화하며, 여러 긴 문맥 벤치마크에서 일관된 개선을 제공하고, 키-값 검색(key-value retrieval) 데이터셋에서 최대 $11.2$%의 정확도 향상을 달성함을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

계층별 위치 임베딩 스케일링(LPES)을 통한 Transformer의 위치 편향 완화

요약

핵심 포인트

댓글