arXiv논문2026. 05. 29. 10:47

대규모 언어 모델 (LLMs)에서 비적대적 강건성 (non-adversarial robustness) 활용하기

요약

본 연구는 프롬프트의 미세한 변화에도 LLM의 성능이 변하는 강건성 문제를 다룹니다. 모델 재학습 없이 '편향 제거(debiasing)' 미세 조정을 통해 의미적 변형에 대응하는 효율적인 방법론을 제시합니다.

핵심 포인트

프롬프트 변형이 LLM 성능에 미치는 영향 분석
신경망 출력의 체계적 기대 변화 및 섭동 유도 편향 규명
편향 제거(debiasing)를 통한 효율적인 강건성 확보
무작위 프롬프트 섭동에 대한 인증 가능성 입증

본 연구는 의미적으로는 유사하지만 텍스트상으로는 다른 프롬프트(prompt)로 인한 변경 및 잠재적 오류에 대해 대규모 언어 모델 (LLMs)이 갖는 강건성 (robustness) 문제를 해결하기 위한 접근 방식을 제시합니다. 최근 연구들에 따르면 이러한 종류의 프롬프트 변형은 작업 수행 시 LLMs의 성능에 상당한 영향을 미칠 수 있음이 밝혀졌습니다. 핵심 질문은 다음과 같습니다: 모델 전체를 비용이 많이 드는 방식으로 재학습시키지 않고도, 의미적으로 중립적인 프롬프트 변경에 대한 LLMs의 강건성을 확보할 수 있는가? 우리는 이론적 분석과 실험을 통해 이 질문을 다룹니다. 우리의 이론적 분석은 모델의 강건성에 영향을 미치는 결정적인 요인, 즉 신경망 모듈 출력에서 발생하는 체계적인 기대 변화(expected shift) 또는 섭동 유도 편향 (perturbation-induced bias)을 밝혀냅니다. 이 분석에 착안하여, 우리는 단순한 미세 조정 (fine-tuning) 과정인 '강건성을 위한 편향 제거 (debiasing for robustness)'를 통해 강건성을 달성할 수 있음을 보여줍니다. 우리는 편향 제거가 도움이 되는 조건과 그렇지 않은 조건을 식별하며, 이론과 광범위한 실험을 통해 강건성을 위한 편향 제거가 실제로 강건성을 향상시키고 무작위 프롬프트 섭동 (random prompt perturbations)에 대한 인증 (certification)을 제공하는 빠르고 효율적인 도구가 될 수 있음을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모 언어 모델 (LLMs)에서 비적대적 강건성 (non-adversarial robustness) 활용하기

요약

핵심 포인트

댓글