행동 미세 조정 (Behavioral Fine-Tuning)을 통한 언어 모델 내 병리적 유사 행동 패턴 모델링

대규모 언어 모델 (Large language models, LLMs)은 인간과 유사한 행동을 모델링하기 위한 계산 도구로 점점 더 많이 사용되고 있습니다. 우리는 구조화된 의사 결정 작업에 대한 미세 조정 (fine-tuning)을 통해 모델의 정책 (policies)을 수정하는 행동 유도 프레임워크 (behavioral induction framework)를 소개합니다. 우울증 및 편집증을 포함한 부적응적 행동 패턴에서 영감을 얻은 합성 데이터셋을 사용하여, 우리는 트랜스포머 기반 (transformer-based) 언어 모델이 다양한 맥락에서 특정 클래스의 행동을 일관되게 선택하도록 훈련합니다. 그런 다음 이러한 행동 최적화가 생성 분포 (generative distributions)에 체계적인 변화를 일으키는지 테스트합니다. 두 가지 아키텍처 (architectures) 전반에 걸쳐, 미세 조정된 모델은 개방형 언어 작업에서 부정적이고 위협과 관련된 해석에 할당된 확률이 증가하는 것을 포함하여, 다음 토큰 확률 분포 (next-token probability distributions)에서 안정적이고 맥락 일반적인 (context-general) 변화를 보여줍니다. 이러한 효과는 훈련 맥락을 넘어 일반화되며, 질적 완성 (qualitative completions), 심리 측정 스타일의 평가 (psychometric-style evaluations), 그리고 Jensen-Shannon divergence와 같은 정량적 분포 지표 (quantitative distributional metrics)에서 감지될 수 있습니다. 유도된 행동 프로필은 또한 부분적인 특이성 (specificity)을 보여줍니다. 서로 다른 행동 패턴에 대해 최적화된 모델은 평가 프로브 (evaluation probes) 전반에서 분리 가능한 응답 경향을 나타내며, 이는 구조화된 행동 훈련이 일반적인 분포 왜곡 (generic distributional skew)보다는 차별화된 정책 수준의 편향 (policy-level biases)을 생성함을 시사합니다. 우리는 이러한 발견을 LLM에서의 일관된 행동 최적화가 변화된 잠재적 사전 확률 (altered latent priors)과 일치하는 안정적인 행동 및 분포 패턴을 생성할 수 있으며, 행동 선택과 언어 생성을 연결한다는 증거로 해석합니다. 더 넓게는, 이 결과는 LLM을 행동 제약이 창발적 표현 구조 (emergent representational structure)를 형성하는 정책 기반 시스템으로 보는 관점을 뒷받침하며, 인지 계산 모델에서 행동, 해석, 그리고 생성 언어 사이의 관계를 연구하기 위한 통제된 테스트베드 (testbeds)로서의 잠재력을 강조합니다.

Insights

행동 미세 조정 (Behavioral Fine-Tuning)을 통한 언어 모델 내 병리적 유사 행동 패턴 모델링

요약

핵심 포인트

댓글

중국이 답이었다 — 테슬라 6월 판매 8만9091대 올해 최고, 모델Y 현지 1위 | 7/8 테슬라 브리핑

짐 크레이머, 강세장 재도래의 큰 위험은 이란 전쟁이 아니다

AI 비디오에 대한 일반적인 인식과 Reactor의 더 큰 방향성

HF Viewer에 수많은 새로운 기능이 추가되었습니다!

짐 크레이머, 강세장 재도래의 큰 위험은 이란 전쟁이 아니다

AI 비디오에 대한 일반적인 인식과 Reactor의 더 큰 방향성

HF Viewer에 수많은 새로운 기능이 추가되었습니다!