arXiv논문2026. 06. 19. 11:48

검증 가능한 지시 이행 수정(Instruction-Following Revision)에서 자기 선호(Self-Preference)는 약하거나

요약

LLM이 자신의 생성물을 검토할 때 발생하는 자기 선호 편향(self-preference bias)을 IFEval 환경에서 검증했습니다. 연구 결과, 모델은 결정론적 검증기에 의해 확인된 양질의 수정안을 거부하지 않으며, 자기 선호 편향이 실질적으로 존재하지 않음을 발견했습니다.

핵심 포인트

LLM의 자기 선호 편향 존재 여부를 IFEval 환경에서 테스트
모델은 자신의 초안에 대한 검증된 수정안을 새로운 모델과 유사한 비율로 수락함
수정안 거부 시 발생하는 이유는 선호도가 아닌 결함 포착에 기인함
소규모 테스트에서 나타난 자기 회의 징후는 대규모 테스트에서 재현되지 않음

대규모 언어 모델(LLMs)은 점차 자신의 글을 포함하여 텍스트를 검토하고 수정하는 역할을 수행하고 있습니다. 기록된 바에 따르면 자기 선호 편향(self-preference bias, 모델이 판사 역할을 할 때 자신이 생성한 결과물을 선호하는 현상)이 존재하는데, 이는 모델이 자신의 글에 대한 타당한 수정 사항에 대해서도 저항하는지를 의문으로 제기합니다. 우리는 "타당함"의 기준을 다른 모델이 아닌 결정론적 검증기(deterministic verifier)에 의해 결정되는 설정, 즉 IFEval에서의 지시 이행 수정(instruction-following revision) 환경에서 이를 테스트합니다. 모델이 초안을 작성하면, 공식 IFEval 체크가 초안이 제약 조건을 위반했음을 확인하고 후보 수정안이 이를 해결함을 확인합니다. 그 후 모델은 실제 문맥 내 저자(genuine in-context author)로서, 또는 초안을 중립적으로 바라보는 새로운 모델(fresh model)로서 해당 수정안을 수락하거나 거부합니다. 4개의 중간 규모 모델 제품군과 85회의 저자 대 새로운 모델 비교를 통해, 우리는 감지 가능한 자기 선호가 없음을 발견했습니다. 저자들은 자신의 초안에 대해 검증된 양질의 수정안을 거부하는 비율이 동일한 초안을 판단하는 새로운 모델의 거부율과 실질적으로 동일했습니다 (차이 -5.1 pp, 95% 신뢰 구간 [-12.9, +2.7]). 소규모 파일럿 테스트에서 나타난 자기 회의(self-skepticism)의 징후는 대규모 테스트에서 재현되지 않았습니다. 유일하게 견고한 관찰 결과는 질적인 측면입니다. 저자들이 검증된 양질의 수정안을 거부할 때, 그들이 밝힌 이유의 97%는 선호도가 아닌 결함 포착(flaw-catching)에 의한 것이었습니다. 즉, 거부율이 높아진 것이 아니라 거부의 성격이 그러했다는 것입니다. 이 표본 크기에서는 약 13 pp보다 작은 효과는 배제할 수 없습니다.

AI 자동 생성 콘텐츠

원문 바로가기

검증 가능한 지시 이행 수정(Instruction-Following Revision)에서 자기 선호(Self-Preference)는 약하거나

요약

핵심 포인트

댓글