arXiv논문2026. 06. 09. 12:05

개념 기반 표현 유사성을 위한 통합 프레임워크

요약

모델과 양상 간의 개념 정렬을 정의하고 분석하기 위한 통합 프레임워크를 제안합니다. 기존 방식의 한계를 지적하며, 인스턴스 및 분포 단위의 정렬을 동시에 최적화하는 CoSAE 모델과 새로운 벤치마크 InterVenchA를 소개합니다.

핵심 포인트

개념 정렬을 표현 vs 개념, 인스턴스 vs 분포의 두 축으로 체계화
기존 정렬 목적 함수 간의 등가성이 실제로는 성립하지 않음을 증명
상호 보완적 목적 함수를 사용하는 CoSAE 모델 제안
0.1%의 적은 쌍 데이터만으로도 인스턴스 수준 정렬 가능성 확인

모델과 양상(modalities) 전반에 걸쳐 학습된 표현(representations)은 종종 놀라운 구조적 유사성을 보이며, 이는 공유된 기저의 개념 분해(concept decompositions)를 시사합니다. 그러나 개념 정렬(concept alignment)은 여전히 정의가 불분명한 상태로 남아 있습니다. 기존의 접근 방식들은 동일한 용어 아래 서로 다른 목적 함수(objectives)를 최적화하며, 이로 인해 실제로 무엇이 정렬되었는지가 모호해집니다. 우리는 정렬을 두 가지 축, 즉 무엇이 정렬되는가(표현(representations) vs 개념(concepts))와 어떤 수준에서 정렬되는가(인스턴스 단위(instance-wise) vs 분포 단위(distributional))를 따라 분해하는 통합 프레임워크를 제안합니다. 이는 네 가지 상응하는 속성—번역(translation)과 개념 일관성(concept consistency)의 인스턴스 단위 및 분포 단위 변형—을 유도하며, 기존 방법들이 이러한 보장(guarantees) 중 정확히 어떤 것을 제공하는지 밝혀냅니다. 나아가 우리는 추출 품질(extraction quality), 번역 품질(translation quality), 그리고 개념 일관성을 별도로 측정하는 개입 기반 벤치마크인 ext{InterVenchA}를 소개합니다. 이론과 실험을 통해, 우리는 정렬 목적 함수 간에 흔히 가정되는 등가성(equivalences)이 실제로는 실패함을 보여줍니다. 즉, 하나의 속성을 최적화한다고 해서 다른 속성들이 안정적으로 회복되지 않으며, 순수하게 비지도(unsupervised) 방식의 목적 함수는 의미 있는 인스턴스 수준의 정렬을 회복하는 데 실패합니다. 이에 따라 우리는 상호 보완적인 정렬 목적 함수를 공동으로 강제하는 결합 희소 오토인코더(Coupled Sparse Autoencoder, CoSAE)를 제안합니다. 강력한 정렬은 오직 이 체제(regime)에서만 나타납니다. 놀랍게도, 분포 목적 함수(distributional objectives)를 고정(anchoring)할 때 단 0.1%의 쌍 데이터(paired data)만으로도 인스턴스 수준의 정렬을 회복하기에 충분합니다. 종합적으로, 우리의 결과는 개념 정렬이 근본적으로 다중 목적(multi-objective)임을 보여줍니다. 즉, 개념 정렬은 그러한 방식으로 정의되고, 측정되며, 최적화되어야 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

개념 기반 표현 유사성을 위한 통합 프레임워크

요약

핵심 포인트

댓글