PRIME: LLM에서 호환되지 않는 지시문 하에서의 프롬프트 해결 능력 평가
요약
LLM이 상충하는 지시문을 받았을 때의 해결 능력을 평가하는 새로운 프레임워크인 PRIME을 소개합니다. 모델의 규모보다 상충 유형이 행동에 더 큰 영향을 미친다는 점을 밝혀냈습니다.
핵심 포인트
- 상충하는 메타 지시문 평가를 위한 PRIME 프레임워크 제안
- 응답 길이, 출력 형식, 추론 등 다양한 상충 관계 생성
- 모델 규모보다 상충 유형이 모델 행동에 더 중요한 요인임
- LLM의 지시 이행 능력 평가 시 고립된 제약 조건 이상의 검증 필요
대규모 언어 모델 (LLMs)은 종종 상충하는 프롬프트에 직면하지만, 현재의 지시 이행 (instruction following) 벤치마크는 이러한 메타 지시문 (meta-instructions)을 개별적으로 평가하기 때문에 모델이 상충하는 지시를 어떻게 처리하는지에 대한 통찰을 제한합니다. 우리는 상충하는 지시가 제공되었을 때 LLM의 동작을 분석하기 위한 프레임워크인 \textit{PRIME} (\textit{Prompt Resolution under Incompatible Meta-Instructions Evaluation})을 소개합니다. \textit{PRIME}은 응답 길이, 출력 형식 (output format), 그리고 추론 (reasoning) 전반에 걸쳐 조정된 상충 관계를 의도적으로 생성하며, 결정론적 행동 분류 체계 (deterministic behavioral taxonomy)를 통해 모델의 응답을 분류합니다. 우리는 균형 잡힌 (balanced) 설정과 자연스럽게 분포된 (naturally distributed) 설정이라는 두 가지 별개의 환경에서 다섯 가지의 지시어 튜닝된 (instruction tuned) 오픈 웨이트 (open weight) LLM을 평가합니다. 분석을 통해 도달한 결론은, 모델의 규모 (scale)보다 상충 유형 (conflict type)이 행동에 영향을 미치는 데 더 중요하다는 것이며, 다양한 상충 범주에 걸쳐 다양한 실패 모드 (failure modes)가 존재한다는 것입니다. 우리의 연구 결과는 상충 인지 (conflict awareness) 개발의 가치를 강조하며, LLM의 지시 이행 능력은 고립된 제약 조건만으로는 평가될 수 없음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기