자기 학습의 재고: 자기 생성 QA 학습의 숨겨진 취약성

언어 모델(Language models)은 점차 합성된 질문-답변(QA) 감독(supervision)을 통해 학습되고 있습니다. 즉, 모델이 문서에 관한 질문을 생성하고, 동일한 텍스트에서 그에 대한 답을 내놓으면, 결과물인 쌍(pairs)을 사용하여 다른 모델을 미세 조정(fine-tune)하거나, 지식을 증류(distill) 또는 압축(compress)하는 방식입니다. 우리는 이 생성 단계가 중립적인 전처리(preprocessing)가 아님을 보여줍니다. 이는 어떤 증거가 학습 신호(training signal)가 될지를 선택하고, 그 증거에 어떻게 답할지를 결정하는 암묵적인 정책(implicit policy)이며, 두 단계 모두에서 취약합니다. 무엇을 질문할지 선택할 때, 생성기(generators)는 문서를 균일하게 스캔하지 않습니다. 커버리지(Coverage)는 조기에 포화되며 두드러진 구간(salient spans)에 집중되고, 다양한 프롬프트(prompts)는 동일한 영역으로 수렴하며, 질문할 가치가 있어 보이는 것은 국소적인 제시 방식(local presentation)에 의해 결정됩니다. 결과적으로, 제대로 정제되지 않은 마크업(markup)과 같은 두드러진 인공물(artifacts)이 모델 제품군(model families)과 규모(scales)를 불문하고 질문 생성을 가로챌 수 있습니다. 답변할 때, 감독(supervision)을 생성하는 모델은 텍스트에 내장된 지시문 형태의 구절(instruction-like passages)을 따르는 경향이 있습니다. 이러한 순응(compliance)은 구절의 엄격함보다는 의도와 표면 형태(surface form)에 따라 달라지며, 작업 충돌(task conflict) 상황에서 가장 심각하게 나타나는데, 이때 더 큰 모델일수록 더 자주 순응합니다. 이러한 실패 모드(failure modes)는 QA 생성 과정에서의 선택으로 인해 발생하므로, 학습 루프(training loop)를 변경하지 않고도 줄일 수 있습니다. 각 질문을 고정된 대상(fixed target)에 연결하면 편향된 선택(biased selection)을 줄일 수 있으며, 답변 전 지시문 형태의 구간을 필터링하면 깨끗한 텍스트를 거의 모두 유지하면서도 우리의 평가에서 평균 주입 순응도(injection compliance)를 $88%$에서 $13%$로 낮출 수 있습니다.

Insights

자기 학습의 재고: 자기 생성 QA 학습의 숨겨진 취약성

요약

핵심 포인트

댓글

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들