arXiv논문2026. 06. 24. 11:55

Pigeonholing: 잘못된 프롬프트가 모델의 붕괴와 오류를 유발하는 현상

요약

잘못된 컨텍스트가 LLM의 성능 저하와 모드 붕괴를 유발하는 'Pigeonholing' 현상을 분석한 연구입니다. 잘못된 답변의 반복이나 좁은 답변 세트로의 수렴 문제를 다루며, RLVR을 통한 완화 방안을 제시합니다.

핵심 포인트

잘못된 컨텍스트가 모델의 성능 저하와 모드 붕괴를 유발함
잘못된 답변 반복 시 성능이 38-40% 하락하는 현상 확인
대화 턴이 길어질수록 오류가 누적되어 성능이 단조적으로 악화됨
합성 오류를 활용한 RLVR로 모델 성능을 43-60% 향상 가능

In-context learning (ICL, 인컨텍스트 학습)이 일반적으로 대규모 언어 모델 (LLMs)에서 효과적임이 입증되었지만, 잘못된 컨텍스트는 성능 저하와 모드 붕괴 (mode collapse)를 일으킬 수 있으며, 우리는 이 현상을 "pigeonholing"이라고 부릅니다. 의도치 않게 잘못된 컨텍스트는 악의적인 탈옥 (jailbreaking) 의도 없이도 발생할 수 있습니다. 예를 들어, 사용자가 모델에게 틀린 수학 정리를 정당화하도록 요청하거나, 모델의 버그가 있는 코드를 수정하지 못하는 경우입니다. 구체적으로, 우리는 두 가지 시나리오에서 "pigeonholing"을 조사합니다: (1) 사용자가 해결책을 제안할 때, 그리고 (2) 대화 컨텍스트에 어시스턴트의 이전 (잘못된) 응답이 포함될 때입니다. 10개의 서로 다른 모델을 사용하여 10개의 검증 가능하고 개방형인 태스크를 대상으로 실험한 결과, pigeonholing은 다음과 같은 여러 방식으로 나타남을 확인했습니다: (1) 컨텍스트의 잘못된 답변을 반복함 (38-40%의 성능 저하로 이어짐), (2) 코딩 및 텍스트 생성 시 대안을 탐색하지 않고 좁은 답변 세트로 수렴함, (3) 논쟁적인 주제에 대해 사용자의 입장이나 어시스턴트의 이전 주장과 일치하도록 입장을 바꿈. 우리는 pigeonholing이 대화 턴(turn) 수가 증가함에 따라 거의 단조적으로 악화된다는 것을 발견했습니다 (반복되는 실수가 1개에서 5개로 증가함에 따라 성능이 추가로 14+% 하락함). 또한, 제공된 예시가 올바른 경우에도 pigeonholing으로 인한 모드 붕괴가 발생할 수 있습니다. 완화 방안의 일환으로, 우리는 합성 오류 (synthetic errors)를 활용한 RLVR을 제안하며, 이는 일반적인 RLVR 베이스라인과 비교했을 때 잘못된 컨텍스트 하에서 모델 성능을 43-60% 향상시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

Pigeonholing: 잘못된 프롬프트가 모델의 붕괴와 오류를 유발하는 현상

요약

핵심 포인트

댓글