검증 가능한 지시 이행 수정(Instruction-Following Revision)에서 자기 선호(Self-Preference)는 약하거나
요약
LLM이 자신의 생성물을 검토할 때 발생하는 자기 선호 편향(self-preference bias)을 IFEval 환경에서 검증했습니다. 연구 결과, 모델은 결정론적 검증기에 의해 확인된 양질의 수정안을 거부하지 않으며, 자기 선호 편향이 실질적으로 존재하지 않음을 발견했습니다.
핵심 포인트
- LLM의 자기 선호 편향 존재 여부를 IFEval 환경에서 테스트
- 모델은 자신의 초안에 대한 검증된 수정안을 새로운 모델과 유사한 비율로 수락함
- 수정안 거부 시 발생하는 이유는 선호도가 아닌 결함 포착에 기인함
- 소규모 테스트에서 나타난 자기 회의 징후는 대규모 테스트에서 재현되지 않음
대규모 언어 모델(LLMs)은 점차 자신의 글을 포함하여 텍스트를 검토하고 수정하는 역할을 수행하고 있습니다. 기록된 바에 따르면 자기 선호 편향(self-preference bias, 모델이 판사 역할을 할 때 자신이 생성한 결과물을 선호하는 현상)이 존재하는데, 이는 모델이 자신의 글에 대한 타당한 수정 사항에 대해서도 저항하는지를 의문으로 제기합니다. 우리는 "타당함"의 기준을 다른 모델이 아닌 결정론적 검증기(deterministic verifier)에 의해 결정되는 설정, 즉 IFEval에서의 지시 이행 수정(instruction-following revision) 환경에서 이를 테스트합니다. 모델이 초안을 작성하면, 공식 IFEval 체크가 초안이 제약 조건을 위반했음을 확인하고 후보 수정안이 이를 해결함을 확인합니다. 그 후 모델은 실제 문맥 내 저자(genuine in-context author)로서, 또는 초안을 중립적으로 바라보는 새로운 모델(fresh model)로서 해당 수정안을 수락하거나 거부합니다. 4개의 중간 규모 모델 제품군과 85회의 저자 대 새로운 모델 비교를 통해, 우리는 감지 가능한 자기 선호가 없음을 발견했습니다. 저자들은 자신의 초안에 대해 검증된 양질의 수정안을 거부하는 비율이 동일한 초안을 판단하는 새로운 모델의 거부율과 실질적으로 동일했습니다 (차이 -5.1 pp, 95% 신뢰 구간 [-12.9, +2.7]). 소규모 파일럿 테스트에서 나타난 자기 회의(self-skepticism)의 징후는 대규모 테스트에서 재현되지 않았습니다. 유일하게 견고한 관찰 결과는 질적인 측면입니다. 저자들이 검증된 양질의 수정안을 거부할 때, 그들이 밝힌 이유의 97%는 선호도가 아닌 결함 포착(flaw-catching)에 의한 것이었습니다. 즉, 거부율이 높아진 것이 아니라 거부의 성격이 그러했다는 것입니다. 이 표본 크기에서는 약 13 pp보다 작은 효과는 배제할 수 없습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기