자기 학습의 재고: 자기 생성 QA 학습의 숨겨진 취약성
요약
합성 QA 데이터를 활용한 언어 모델 학습 과정에서 발생하는 취약성을 분석합니다. 질문 생성 시 특정 구간에 집중되는 커버리지 편향과 답변 생성 시 텍스트 내 지시문에 과도하게 순응하는 문제를 지적합니다.
핵심 포인트
- 합성 QA 생성은 중립적인 전처리가 아닌 암묵적 정책을 따름
- 질문 생성 시 문서의 특정 구간에만 집중되는 커버리지 포화 문제 발생
- 모델이 텍스트 내 지시문 형태의 구절에 과도하게 순응하는 경향 확인
- 질문 대상을 고정하거나 지시문 구간을 필터링하여 편향을 크게 완화 가능
언어 모델(Language models)은 점차 합성된 질문-답변(QA) 감독(supervision)을 통해 학습되고 있습니다. 즉, 모델이 문서에 관한 질문을 생성하고, 동일한 텍스트에서 그에 대한 답을 내놓으면, 결과물인 쌍(pairs)을 사용하여 다른 모델을 미세 조정(fine-tune)하거나, 지식을 증류(distill) 또는 압축(compress)하는 방식입니다. 우리는 이 생성 단계가 중립적인 전처리(preprocessing)가 아님을 보여줍니다. 이는 어떤 증거가 학습 신호(training signal)가 될지를 선택하고, 그 증거에 어떻게 답할지를 결정하는 암묵적인 정책(implicit policy)이며, 두 단계 모두에서 취약합니다. 무엇을 질문할지 선택할 때, 생성기(generators)는 문서를 균일하게 스캔하지 않습니다. 커버리지(Coverage)는 조기에 포화되며 두드러진 구간(salient spans)에 집중되고, 다양한 프롬프트(prompts)는 동일한 영역으로 수렴하며, 질문할 가치가 있어 보이는 것은 국소적인 제시 방식(local presentation)에 의해 결정됩니다. 결과적으로, 제대로 정제되지 않은 마크업(markup)과 같은 두드러진 인공물(artifacts)이 모델 제품군(model families)과 규모(scales)를 불문하고 질문 생성을 가로챌 수 있습니다. 답변할 때, 감독(supervision)을 생성하는 모델은 텍스트에 내장된 지시문 형태의 구절(instruction-like passages)을 따르는 경향이 있습니다. 이러한 순응(compliance)은 구절의 엄격함보다는 의도와 표면 형태(surface form)에 따라 달라지며, 작업 충돌(task conflict) 상황에서 가장 심각하게 나타나는데, 이때 더 큰 모델일수록 더 자주 순응합니다. 이러한 실패 모드(failure modes)는 QA 생성 과정에서의 선택으로 인해 발생하므로, 학습 루프(training loop)를 변경하지 않고도 줄일 수 있습니다. 각 질문을 고정된 대상(fixed target)에 연결하면 편향된 선택(biased selection)을 줄일 수 있으며, 답변 전 지시문 형태의 구간을 필터링하면 깨끗한 텍스트를 거의 모두 유지하면서도 우리의 평가에서 평균 주입 순응도(injection compliance)를 $88%$에서 $13%$로 낮출 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기