arXiv논문2026. 05. 01. 16:28

DPN-LE: 대규모 언어 모델용 듀얼 페르소나 뉴런 로컬라이제이션 및 편집

요약

본 연구는 대규모 언어 모델(LLMs)의 페르소나 표현 메커니즘을 이해하고, 성능 저하 없이 특정 페르소나를 편집하는 새로운 방법을 제안합니다. 기존 뉴런 편집 방식은 많은 뉴런 변경이 필요하여 전반적인 성능 저하를 초래한다는 한계가 있습니다. 연구진은 고-속성 및 저-속성 샘플 간의 MLP 활성화 대비 분석을 통해, 페르소나에 특화된 뉴런을 식별하는 DPN-LE(Dual Personality Neuron Localization and Editing) 기법을 개발했습니다. 이 방법은 적은 수의 뉴런만 개입하여 정밀한 페르소나 제어와 우수한 능력 보존을 동시에 달성합니다.

핵심 포인트

기존 LLM 페르소나 편집 방식은 광범위한 뉴런 변경이 필요해 전반적인 성능 저하를 초래하는 문제가 있습니다.
뉴런들은 다기능적이며, 특정 페르소나 속성은 명확하게 상호 배타적인 표현 패턴을 보입니다.
DPN-LE는 고/저-속성 샘플 간의 MLP 활성화 대비 분석을 통해 페르소나 특이 뉴런을 식별합니다.
Cohen's d 효과 크기와 활성화 크기 기반의 이중 필터링으로 상호 배타적인 뉴런 하위 집합을 격리할 수 있습니다.
DPN-LE는 전체 뉴런 중 극히 일부(약 0.5%)만 개입하여 정밀한 페르소나 제어와 높은 능력 보존을 동시에 달성합니다.

대규모 언어 모델 (LLMs) 의 광범위한 도입으로 인해 그들의 페르소나 표현 메커니즘을 이해하는 것이 중요해졌습니다. 페르소나 편집의 새로운 패러다임으로서, 기존 대부분의 방법은 뉴런 편집을 통해 LLM 뉴런을 위치시키고 수정하는데, 이는 많은 수의 뉴런 변경이 필요하여 성능 저하를 초래합니다. 이는 근본적인 질문을 제기합니다: 모든 수정된 뉴런이 직접적으로 페르소나 표현과 관련 있는가? 본 연구에서는 일반 능력 영향 평가와 표현 레벨 패턴 분석을 통해 이 특이성을 조사하고 정량화합니다. 우리는 다음 사항을 발견했습니다: 1) 현재 방법은 페르소나를 변경할 수 있지만 전반적인 성능을 감소시킵니다. 2) 뉴런은 다기능적이며, 페르소나 속성과 일반 지식을 연결합니다. 3) 상반된 페르소나 속성은 명확하게 상호 배타적인 표현 패턴을 보입니다. 이러한 발견에 영감을 받아 우리는 고-속성 샘플과 저-속성 샘플 간의 MLP 활성화 (MLP activations) 를 대비시켜 페르소나 특정 뉴런을 식별하는 DPN-LE (Dual Personality Neuron Localization and Editing) 을 제안합니다. DPN-LE 는 레이어별 스티어링 벡터 (steering vectors) 를 구성하며, Cohen's $d$ 효과 크기와 활성화 크기 (activation magnitude) 기반의 이중 기준 필터링을 적용하여 상호 배타적인 뉴런 하위 집합을 격리합니다. 이러한 뉴런에 대한 희소 선형 간섭 (sparse linear intervention) 은 추론 시간에서의 정밀한 페르소나 제어를 가능하게 합니다. 각 속성당 1,000 개의 대비 샘플 쌍 (contrastive sample pairs) 만 사용하여 DPN-LE 는 약 0.5% 의 뉴런에 간섭을 가하면서 경쟁력 있는 페르소나 제어와 추론 작업 전반에 걸쳐 현저히 우수한 능력 보존을 달성합니다. LLaMA-3-8B-Instruct 및 Qwen2.5-7B-Instruct 에서 수행된 실험은 우리의 접근법의 효과성과 일반화 가능성을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

DPN-LE: 대규모 언어 모델용 듀얼 페르소나 뉴런 로컬라이제이션 및 편집

요약

핵심 포인트

댓글