arXiv논문2026. 05. 07. 17:19

대규모 언어 모델의 개입에 따른 행동적 영향 감사용 자동화된 대비 평가 파이프라인 제시

요약

본 논문은 대규모 언어 모델(LLM)의 특정 개입(intervention)이 모델 행동에 미치는 영향을 자동으로 평가하고 감사를 수행하는 파이프라인을 제시한다. 이 방법은 기본 모델과 개입된 모델 간의 다중 토큰 생성을 비교하여, 통계적으로 검증되고 인간이 이해하기 쉬운 자연어 가설을 생성하며 반복적인 주제를 식별한다. 합성 환경 및 실제 시나리오(예: 추론 정제, 지식 편집)에 적용하여, 이 파이프라인이 의도된 변화뿐만 아니라 예상치 못한 행동 변화까지 포착할 수 있음을 입증했다.

핵심 포인트

LLM 개입에 따른 행동적 영향을 감사하기 위한 자동화된 대비 평가(contrastive evaluation) 파이프라인을 제안함.
모델 간의 차이를 설명하는 통계적으로 검증되고 해석 가능한 자연어 가설 및 반복 주제를 생성함.
합성 환경과 실제 개입 시나리오(지식 편집, unlearning 등)에 적용하여 높은 신뢰성을 입증함.
단순히 의도된 변화뿐만 아니라 예상치 못한 행동 변화까지 포착할 수 있으며, 환각을 방지하고 효과가 없는 경우 차이가 없음을 정확하게 보고함.

우리는 대규모 언어 모델 (LLM) 의 개입 (intervention) 에 따른 행동적 영향 감사를 위한 자동화된 대비 평가 파이프라인을 제시합니다. 기본 모델 $M_1$ 과 개입 모델 $M_2$ 를 주어진 경우, 우리 방법은 정렬된 프롬프트 컨텍스트에 대한 자유형 다중 토큰 생성 (free-form, multi-token generations) 을 비교하며, 모델 간의 차이를 설명하는 인간이 읽기 쉬운 통계적으로 검증된 자연어 가설을 생성합니다. 또한, 검증된 가설을 요약하는 패턴을 나타내는 반복적인 주제 (recurring themes) 도 함께 제공합니다. 우리는 이 접근법을 합성 환경 (synthetic setting) 에서 평가하여 알려진 행동 변화를 주입하고 파이프라인이 이를 신뢰할 수 있게 복원함을 보여줍니다. 이어 우리는 추론 정제 (reasoning distillation), 지식 편집 (knowledge editing),忘却 (unlearning) 의 세 가지 실제 세계의 개입에 적용하여, 이 방법이 의도된 변화뿐만 아니라 예상치 못한 행동 변화를 드러내며, 대규모 개입과 미묘한 개입을 구별할 수 있고, 효과가 없거나 프롬프트 은행 (prompt bank) 과 일치하지 않을 때 차이가 존재하지 않음을 환각 (hallucinate) 하지 않는다는 것을 증명합니다. 전반적으로, 이 파이프라인은 모델 행동의 개입 유도 변화에 대한 사후 감사 (post-hoc auditing) 를 위한 통계적 근거와 해석 가능한 도구를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모 언어 모델의 개입에 따른 행동적 영향 감사용 자동화된 대비 평가 파이프라인 제시

요약

핵심 포인트

댓글