arXiv논문2026. 06. 29. 11:07

LLM이 생성보다 더 잘 판단할 수 있는가? In-Context QA를 위한 작업 비대칭성, 기계론적 해석 가능성(Mechanistic

요약

LLM의 평가 능력이 생성 능력보다 뛰어나다는 기존 가설을 반박하는 연구입니다. 실험 결과, 많은 경우 생성 정확도가 자기 평가보다 높았으며, 이는 모델이 평가 시 문맥에 충분히 주의를 기울이지 않기 때문임이 밝혀졌습니다.

핵심 포인트

평가가 생성보다 쉽다는 기존의 암묵적 가정에 의문 제기
대부분의 벤치마크에서 생성 정확도가 자기 평가를 상회함
평가 시 모델이 문맥(Context)에 주의를 기울이는 정도가 생성보다 현저히 낮음
LoRA 미세 조정을 통해 이러한 비대칭성이 학습의 인위적 결과가 아님을 증명

LLM-as-a-Judge(판단자로서의 LLM) 및 자기 평가(self-evaluation) 파이프라인은 평가가 생성보다 더 쉽다는 것을 암묵적으로 가정합니다. 우리는 문맥 지문(context passage)이 유일한 정보원인 통제된 인컨텍스트 QA(in-context QA) 환경에서 이를 테스트하였으며, 각 모델이 자신이 생성한 답변을 판단하게 함으로써 오픈 도메인 비교에서 발생하는 파라미터 지식(parametric-knowledge)의 혼란 변수를 제거했습니다. 4개의 벤치마크(SQuAD 2.0, DROP, HotpotQA, MuSiQue)와 2개의 모델을 대상으로 테스트한 결과, 평가는 일관되게 더 쉽지 않았습니다. 4개 중 3개에서 생성 정확도가 자기 평가를 상회하였으며, 멀티홉(multi-hop) 데이터셋인 MuSiQue가 예외였습니다. 어텐션(Attention) 분석은 그 이유를 밝혀냈습니다. 평가는 생성보다 문맥(context)에 3~5배 적게 주의를 기울이며, 후보 답변(candidate answer)은 거의 읽지 않습니다. LoRA 미세 조정(fine-tuning)은 이러한 비대칭성이 학습 과정에서 발생하는 인위적인 결과가 아님을 확인시켜 줍니다. 생성 미세 조정은 과잉 수용(over-acceptance)을 유도하고, 평가 미세 조정은 생성을 저하시킵니다. 이러한 발견은 자기 평가 파이프라인의 핵심 가정에 의문을 제기합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM이 생성보다 더 잘 판단할 수 있는가? In-Context QA를 위한 작업 비대칭성, 기계론적 해석 가능성(Mechanistic

요약

핵심 포인트

댓글