너무 생성적이지도, 너무 판별적이지도 않게: 인간 정렬의 최적 지점
요약
본 연구는 판별적 학습과 생성적 학습 사이의 균형이 인간의 시각적 인지와 어떻게 정렬되는지 분석합니다. JEM을 통해 두 학습 목표를 결합한 결과, 양 극단이 아닌 중간 지점에서 인간과 가장 유사한 시각적 표현이 나타남을 증명했습니다.
핵심 포인트
- 판별적-생성적 학습의 연속적 보간을 통한 학습 목표 효과 분리
- 인간 정렬은 두 학습 방식의 중간 지점에서 극대화됨
- 하이브리드 모델이 범주적 구조와 입력 구조 민감도를 동시에 확보
- 생성적-판별적 이분법을 넘어선 균형 잡힌 학습의 중요성 제시
컴퓨터 비전 (Computational Vision)의 핵심 질문은 인간과 유사한 시각적 표현 (Visual Representations)이 판별적 학습 (Discriminative Learning)과 생성적 학습 (Generative Learning) 중 어느 것에 의해 더 잘 설명되는가 하는 점입니다. 그러나 기존의 비교 연구들은 학습 목표 (Learning Objective)를 아키텍처 (Architecture), 규모 (Scale), 그리고 학습 데이터 (Training Data)와 혼동하는 경우가 많아, 목표 그 자체가 정렬 (Alignment)을 유도하는지 여부를 명확히 밝히지 못했습니다. 본 연구에서는 고정된 아키텍처 내에서 판별적 학습과 생성적 학습 사이를 연속적으로 보간 (Interpolate)하는 결합 에너지 기반 모델 (Joint Energy-Based Models, JEMs)을 사용하여 이러한 혼란 요인을 해결합니다. 단일 혼합 계수 (Mixing Coefficient)를 변화시킴으로써 학습 목표의 효과를 분리하였으며, 지각적 유사성 (Perceptual Similarity), 광택 지각 (Gloss Perception), 인간 반응 불확실성 (Human Response Uncertainty), 강건성 (Robustness), 형태-질감 단서 충돌 (Shape-Texture Cue Conflict), 그리고 진단적 특징 속성 (Diagnostic Feature Attribution)을 아우르는 6가지 인간 정렬 벤치마크를 통해 결과 모델을 평가했습니다. 이 다양한 테스트 세트 전반에 걸쳐, 인간 정렬은 생성적-판별적 연속체의 양 끝단이 아닌 중간 지점에서 일관되게 극대화되었습니다. 하이브리드 JEM은 판별적 학습에 의해 유도되는 범주적 구조 (Categorical Structure)와 생성적 학습에 의해 유도되는 입력 구조에 대한 민감도 (Sensitivity to Input Structure)를 결합하여, 시각의 여러 수준에서 더욱 인간과 유사한 행동을 보여줍니다. 이러한 결과는 생성적-판별적 이분법 (Generative-Discriminative Dichotomy)이 인간과 정렬된 시각을 이해하기 위한 잘못된 축임을 시사합니다. 즉, 정렬은 어느 한 목표를 다른 하나보다 선택함으로써 나타나는 것이 아니라, 두 가지를 모두 균형 있게 맞춤으로써 나타납니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기