StochasT: 시각적 지시어 튜닝 (Visual Instruction Tuning)을 위한 확률적 대화 턴 깊이 학습

대규모 시각-언어 모델 (Large Vision-Language Models, LVLMs)은 멀티모달 추론 능력을 끌어내기 위해 시각적 지시어 튜닝 (Visual Instruction Tuning, VIT)에 크게 의존합니다. 그러나 우리는 하나의 불일치를 발견했습니다. VIT는 대화형 멀티턴 (multi-turn) 학습을 위해 동일한 이미지에 대한 여러 언어 태스크를 묶어서 제공하는 경우가 많은 반면, 기존의 벤치마크들은 LVLMs를 고립된 싱글턴 (single-turn) 시나리오에서 평가한다는 점입니다. 모델은 멀티턴 학습 과정에서 시각적 주의력 감쇠 (visual attention decay) 및 문맥적 과적합 (contextual overfitting) 문제를 겪을 수 있으며, 이로 인해 불일치하는 테스트 단계에서 잠재력을 완전히 발휘하기 어려워집니다. 이 격차를 줄이기 위해, 우리는 확률적 턴 깊이 (Stochastic Turn Depth, StochasT) 학습을 제안합니다. 이는 언어 태스크들의 유기적인 순서를 유지하면서, 동일한 이미지에 대한 언어 태스크들을 다양한 크기(턴 깊이)의 클러스터로 확률적으로 그룹화합니다. 따라서 StochasT는 ResNet의 드롭아웃 (Dropout) 및 확률적 깊이 (stochastic depth) 개념을 차용하지만, 학습 데이터의 효용을 극대화하기 위해 실제로 무언가를 삭제하지는 않습니다. 나아가, 우리는 다양한 문맥적 의존성 하에서 LVLMs의 강건성 (robustness)을 측정하기 위해 균형 잡힌 라틴 방격 (Balanced Latin Square)에 기반한, 벤치마크에 구애받지 않는 도전적인 평가 메커니즘을 도입합니다. 광범위한 실험을 통해 StochasT가 LVLMs에게 싱글턴 및 멀티턴 사용 사례 모두에서 강력하고 조화로운 능력을 효과적으로 부여함을 입증합니다.

Insights

StochasT: 시각적 지시어 튜닝 (Visual Instruction Tuning)을 위한 확률적 대화 턴 깊이 학습

요약

핵심 포인트

댓글

엔비디아가 오픈소스 모델 네모트론을 통째로 얹기로 한 플랫폼이 팔란티어다. 발표 후 팔란티어는 하루 7.7% 뛰었다. 왜 하필 여기였을까.

시장가의 3.6배. 위메이드 창업자 지분 39.33%에 중국계 자본이 쳐준 값이다. 종가 1만9330원짜리 주식을 주당 6만8910원, 총

구글이 제미나이 개인화 이미지 생성을 미국 무료 사용자 전원에게 풀었다. 유료 구독자 전용이던 기능인데, 왜 갑자기 공짜가 됐을까.

이것은 정말 AI가 생성한 것 같지 않네요, 너무 사실적입니다!!

엔비디아가 오픈소스 모델 네모트론을 통째로 얹기로 한 플랫폼이 팔란티어다. 발표 후 팔란티어는 하루 7.7% 뛰었다. 왜 하필 여기였을까.

시장가의 3.6배. 위메이드 창업자 지분 39.33%에 중국계 자본이 쳐준 값이다. 종가 1만9330원짜리 주식을 주당 6만8910원, 총

구글이 제미나이 개인화 이미지 생성을 미국 무료 사용자 전원에게 풀었다. 유료 구독자 전용이던 기능인데, 왜 갑자기 공짜가 됐을까.

이것은 정말 AI가 생성한 것 같지 않네요, 너무 사실적입니다!!