arXiv논문2026. 06. 03. 11:04

미세 조정된 LLM의 안전성 측정은 역량에 기반해야 한다

요약

미세 조정(Fine-tuning)이 LLM의 안전성에 미치는 영향을 역량(Capability) 관점에서 분석한 연구입니다. 기존의 무작위적 실험 방식 대신 역량 목표를 고정하여 다차원적인 평가를 수행해야 함을 강조합니다.

핵심 포인트

미세 조정 시 안전성 프롬프트에 대한 일관성 없는 출력이 발생할 수 있음
자동화된 안전성 판단 도구는 일관성 없는 출력물에 대해 신뢰도가 낮음
안전성 벤치마크 및 평가자 선택에 따라 미세 조정 효과 결론이 달라질 수 있음
안전성 측정 시 역량(Capability)을 기준으로 한 체계적 접근이 필수적임

파운데이션 거대 언어 모델 (Foundation Large Language Models)을 미세 조정 (Fine-tuning)을 통해 사용자의 작업이나 선호하는 스타일로 적응시키는 과정은 모델의 안전성을 저해하는 결과를 초래할 수 있습니다. 기존 연구들은 제한적이고 겉보기에 무작위적인 실험 설정에서 미세 조정이 모델 안전성에 미치는 영향을 조사했습니다. 본 연구에서는 임의적인 경험적 선택을 피하고, 안전성에 미치는 영향에 대해 의미 있는 결론을 도출하며, 완화 방법들을 일관된 기준으로 비교하기 위해서는 미세 조정을 특정 역량 (Capability) 목표에 고정하는 것이 필수적이라고 주장합니다. 우리는 안전성뿐만 아니라 역량에도 초점을 맞추어 미세 조정이 모델 행동에 미치는 영향에 대해 다차원적인 평가를 수행합니다. 우리의 연구 결과는 다음과 같은 중요한 문제들을 드러냅니다: (1) 미세 조정된 모델은 안전성 프롬프트 (Safety prompts)에 대응하여 일관성 없는 생성물 (Incoherent generations)을 만들어낼 수 있으며, (2) 자동화된 안전성 판단 (Automated safety judgments)은 이러한 일관성 없는 출력물에 대해 신뢰할 수 없고, (3) 미세 조정의 효과에 대한 결론은 안전성 벤치마크 (Safety benchmark) 및 안전성 평가자 (Safety evaluator)의 선택에 따라 달라질 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

미세 조정된 LLM의 안전성 측정은 역량에 기반해야 한다

요약

핵심 포인트

댓글