임베딩 모델은 어떻게 개념을 결합(Binding)하는가?
요약
CLIP과 같은 시각-언어 임베딩 모델이 객체의 속성을 결합하는 방식의 한계를 분석합니다. 연구 결과, CLIP은 개념을 개별적으로 인식하는 '개념 주머니' 방식으로 동작하며, 낮은 복잡도의 곱셈적 상호작용을 학습할 때 체계적인 일반화가 가능함을 밝힙니다.
핵심 포인트
- CLIP은 개념 결합 능력이 부족하여 '개념 주머니' 모델처럼 동작함
- 장면 임베딩은 객체 표현으로 가산적으로 분해될 수 있음
- 낮은 복잡도의 곱셈적 상호작용이 체계적 일반화의 핵심임
- 충분한 데이터가 확보된 트랜스포머는 결합 일반화가 가능함
인간은 다중 객체 장면(multi-object scenes)에서 어떤 색상이 어떤 모양에 속하는지를 쉽게 결정하며, 이러한 능력을 개념 결합 (concept binding)이라고 합니다. CLIP과 같은 시각-언어 임베딩 모델 (vision-language embedding models)은 결합에 어려움을 겪습니다. 즉, 개별 개념은 인식하지만 어떤 개념들이 어떤 객체를 형성하는지는 표현하지 못합니다. CLIP은 교차 모달 검색 (cross-modal retrieval)에서 개념 주머니 (bag-of-concepts) 모델처럼 동작하지만, 객체 정보는 이미지 및 텍스트 임베딩으로부터 각각 별도로 복구될 수 있습니다. 우리는 개념을 장면 임베딩 (scene embeddings)으로 매핑하는 결합 함수 (binding function)를 통해 이러한 긴장 관계를 연구합니다. 우리는 장면 임베딩이 객체 표현 (object representations)으로 가산적으로 분해 (decompose additively)된다는 것을 발견했으며, 이는 왜 단일 모달 프로브 (uni-modal probes)가 객체 정보를 복구할 수 있는지를 설명합니다. 그러나 CLIP의 결합 함수는 복잡도가 높으며, 이로 인해 이미지 및 텍스트 인코더가 보지 못한 개념 조합에도 일반화될 수 있는 공유된 결합 메커니즘을 학습하는 것이 방해받는 것으로 보입니다. 그런 다음 우리는 이러한 한계가 근본적인 것인지 질문합니다. 우리는 그것이 그렇지 않음을 보여줍니다. 처음부터 학습된 통제된 트랜스포머 (transformer) 모델에서, 충분한 데이터 커버리지가 확보되면 결합 일반화 (binding generalization)가 나타납니다. 이러한 모델들은 개념 간의 곱셈적 상호작용 (multiplicative interactions)으로 특징지어지는 낮은 복잡도의 결합 함수를 학습하여 체계적인 일반화를 가능하게 합니다. 코드는 https://github.com/oshapio/binding-concepts-complexity 에서 공개적으로 사용할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기