StochasT: 시각적 지시어 튜닝 (Visual Instruction Tuning)을 위한 확률적 대화 턴 깊이 학습
요약
LVLM의 멀티턴 학습과 싱글턴 평가 간의 불일치 문제를 해결하기 위해 확률적 턴 깊이(StochasT) 학습법을 제안합니다. 다양한 턴 깊이로 태스크를 그룹화하여 학습함으로써 모델의 시각적 주의력 감쇠와 문맥적 과적합을 방지합니다.
핵심 포인트
- 멀티턴 학습과 싱글턴 평가 사이의 불일치 문제 지적
- StochasT: 확률적 턴 깊이를 활용한 새로운 학습 방법론 제안
- 시각적 주의력 감쇠 및 문맥적 과적합 문제 완화
- 강건성 측정을 위한 새로운 평가 메커니즘 도입
대규모 시각-언어 모델 (Large Vision-Language Models, LVLMs)은 멀티모달 추론 능력을 끌어내기 위해 시각적 지시어 튜닝 (Visual Instruction Tuning, VIT)에 크게 의존합니다. 그러나 우리는 하나의 불일치를 발견했습니다. VIT는 대화형 멀티턴 (multi-turn) 학습을 위해 동일한 이미지에 대한 여러 언어 태스크를 묶어서 제공하는 경우가 많은 반면, 기존의 벤치마크들은 LVLMs를 고립된 싱글턴 (single-turn) 시나리오에서 평가한다는 점입니다. 모델은 멀티턴 학습 과정에서 시각적 주의력 감쇠 (visual attention decay) 및 문맥적 과적합 (contextual overfitting) 문제를 겪을 수 있으며, 이로 인해 불일치하는 테스트 단계에서 잠재력을 완전히 발휘하기 어려워집니다. 이 격차를 줄이기 위해, 우리는 확률적 턴 깊이 (Stochastic Turn Depth, StochasT) 학습을 제안합니다. 이는 언어 태스크들의 유기적인 순서를 유지하면서, 동일한 이미지에 대한 언어 태스크들을 다양한 크기(턴 깊이)의 클러스터로 확률적으로 그룹화합니다. 따라서 StochasT는 ResNet의 드롭아웃 (Dropout) 및 확률적 깊이 (stochastic depth) 개념을 차용하지만, 학습 데이터의 효용을 극대화하기 위해 실제로 무언가를 삭제하지는 않습니다. 나아가, 우리는 다양한 문맥적 의존성 하에서 LVLMs의 강건성 (robustness)을 측정하기 위해 균형 잡힌 라틴 방격 (Balanced Latin Square)에 기반한, 벤치마크에 구애받지 않는 도전적인 평가 메커니즘을 도입합니다. 광범위한 실험을 통해 StochasT가 LVLMs에게 싱글턴 및 멀티턴 사용 사례 모두에서 강력하고 조화로운 능력을 효과적으로 부여함을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기