arXiv논문2026. 06. 03. 11:05

대규모 언어 모델(LLM)에서의 어휘 정렬 및 선호도 단계 변화의 완전 자동 식별

요약

LLM의 어휘 정렬 불일치 문제를 수동 큐레이션 없이 자동으로 식별하는 두 가지 새로운 평가 지표를 제안합니다. Lexical Alignment Score와 Triangulated Preference Shift를 통해 특정 단어의 과다 사용과 인간 선호도 학습 간의 상관관계를 정량화합니다.

핵심 포인트

수동 개입 없는 자동화된 어휘 정렬 식별 지표 제안
Lexical Alignment Score를 통한 어휘 과다 사용 탐지
인간 선호도 학습 단계와 어휘 변화 간의 상관관계 정량화
Falcon, Gemma, Llama 등 6개 모델 제품군에서 검증 완료

ChatGPT와 같은 디지털 채팅 어시스턴트가 사용하는 언어는 인간의 기대와 다를 수 있습니다(misalignment, 정렬 불일치). 주로 과학 영어(Scientific English)를 대상으로 한 연구들은 어떤 차이가 발생하는지, 그리고 어느 정도까지는 그 이유가 인간 선호도 학습(human preference learning)의 훈련 단계와 어떻게 연결되는지를 설명해 왔습니다. 하지만 기존의 접근 방식들은 수동 큐레이션(manual curation)에 의존하고 있습니다. 본 논문은 큐레이션이 필요 없고 가정이 적은 두 가지 평가 지표를 소개합니다: 어휘 과다 사용을 식별하는 어휘 정렬 점수(Lexical Alignment Score)와, 이러한 변화가 인간 선호도 학습에 의해 얼마나 기인하는지를 정량화하는 삼각 측량 선호도 변화(Triangulated Preference Shift)입니다. PubMed 초록을 사용하여 연속 문장을 생성하였으며, 6개의 모델 제품군(Falcon, Gemma, Llama, Mistral, OLMo, Yi)에 대해 윈도우 문서 출현 빈도(windowed document prevalence)를 사용하여 측정하였습니다. 이 절차는 수동 개입 없이 'suggest', 'additionally', 'strategy'와 같이 과도하게 사용되는 항목들을 식별하고, 이들이 선호도 학습과 갖는 연관성을 추정합니다. 우리의 연구 결과는 이전 연구들을 재현하며, 파라미터 설정, 랜덤 시드(random seeds), 그리고 추가 데이터에 대한 평가에서도 안정적으로 유지됩니다. 이 접근 방식은 쉽게 확장 가능하며, 과학 영어를 넘어 다양한 언어에 걸쳐 어휘적 (불)정렬에 대한 체계적인 연구를 가능하게 합니다. 따라서 이 지표들은 향후 모델의 정렬(alignment) 개선과 그 기원에 대한 이해에 기여할 잠재력을 가지고 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모 언어 모델(LLM)에서의 어휘 정렬 및 선호도 단계 변화의 완전 자동 식별

요약

핵심 포인트

댓글