행동 미세 조정 (Behavioral Fine-Tuning)을 통한 언어 모델 내 병리적 유사 행동 패턴 모델링
요약
LLM의 정책을 수정하여 특정 행동 패턴을 유도하는 행동 유도 프레임워크를 제안합니다. 우울증 및 편집증과 같은 부적응적 행동 데이터를 통해 미세 조정한 모델이 생성 분포에서 체계적이고 일반화된 변화를 보임을 입증했습니다.
핵심 포인트
- 행동 미세 조정을 통한 LLM의 정책 수정 프레임워크 소개
- 특정 행동 패턴이 다음 토큰 확률 분포에 체계적 변화 유도
- 훈련 맥락을 넘어선 행동 프로필의 일반화 및 분리 가능성 확인
- LLM을 행동 제약이 표현 구조를 형성하는 정책 기반 시스템으로 정의
대규모 언어 모델 (Large language models, LLMs)은 인간과 유사한 행동을 모델링하기 위한 계산 도구로 점점 더 많이 사용되고 있습니다. 우리는 구조화된 의사 결정 작업에 대한 미세 조정 (fine-tuning)을 통해 모델의 정책 (policies)을 수정하는 행동 유도 프레임워크 (behavioral induction framework)를 소개합니다. 우울증 및 편집증을 포함한 부적응적 행동 패턴에서 영감을 얻은 합성 데이터셋을 사용하여, 우리는 트랜스포머 기반 (transformer-based) 언어 모델이 다양한 맥락에서 특정 클래스의 행동을 일관되게 선택하도록 훈련합니다. 그런 다음 이러한 행동 최적화가 생성 분포 (generative distributions)에 체계적인 변화를 일으키는지 테스트합니다. 두 가지 아키텍처 (architectures) 전반에 걸쳐, 미세 조정된 모델은 개방형 언어 작업에서 부정적이고 위협과 관련된 해석에 할당된 확률이 증가하는 것을 포함하여, 다음 토큰 확률 분포 (next-token probability distributions)에서 안정적이고 맥락 일반적인 (context-general) 변화를 보여줍니다. 이러한 효과는 훈련 맥락을 넘어 일반화되며, 질적 완성 (qualitative completions), 심리 측정 스타일의 평가 (psychometric-style evaluations), 그리고 Jensen-Shannon divergence와 같은 정량적 분포 지표 (quantitative distributional metrics)에서 감지될 수 있습니다. 유도된 행동 프로필은 또한 부분적인 특이성 (specificity)을 보여줍니다. 서로 다른 행동 패턴에 대해 최적화된 모델은 평가 프로브 (evaluation probes) 전반에서 분리 가능한 응답 경향을 나타내며, 이는 구조화된 행동 훈련이 일반적인 분포 왜곡 (generic distributional skew)보다는 차별화된 정책 수준의 편향 (policy-level biases)을 생성함을 시사합니다. 우리는 이러한 발견을 LLM에서의 일관된 행동 최적화가 변화된 잠재적 사전 확률 (altered latent priors)과 일치하는 안정적인 행동 및 분포 패턴을 생성할 수 있으며, 행동 선택과 언어 생성을 연결한다는 증거로 해석합니다. 더 넓게는, 이 결과는 LLM을 행동 제약이 창발적 표현 구조 (emergent representational structure)를 형성하는 정책 기반 시스템으로 보는 관점을 뒷받침하며, 인지 계산 모델에서 행동, 해석, 그리고 생성 언어 사이의 관계를 연구하기 위한 통제된 테스트베드 (testbeds)로서의 잠재력을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기