arXiv논문2026. 06. 16. 11:56

놀라움 기반 병합 정렬(Surprise-Guided MergeSort): 적응형 비교 스케줄링을 통한 예산 효율적인 인간

요약

VLM을 활용해 인간의 주석 작업 효율을 높이는 Surprise-Guided MergeSort(SGS) 프레임워크를 제안합니다. VLM이 비교의 모호성을 식별하여 꼭 필요한 비교만 인간에게 전달함으로써, 정렬 작업의 비용을 획기적으로 줄이면서도 정확도를 향상시킵니다.

핵심 포인트

VLM을 질문 우선순위 지정 도구로 활용하여 주석 비용 절감
놀라움 점수(Surprise Scorer)를 통해 비교의 모호성 정량화
높은 놀라움의 쌍은 인간에게, 낮은 쌍은 자동화하는 적응형 예산 할당
다양한 벤치마크에서 기존 방식 대비 높은 정확도-효율성 트레이드오프 입증

쌍체 비교(Pairwise comparison)는 주관적인 순위 지정 작업의 표준(gold standard)이지만, 철저한 주석 작업(annotation)을 위해서는 방대한 양의 인간 비교($O(n^2)$)가 필요합니다. 정렬 기반 방식(sorting-based methods)을 통해 이 부담을 $O(n ext{log}n)$으로 줄였으나, 여전히 모든 개별 비교에 대해 비용이 많이 드는 인간의 판단이 필요합니다. 주석 효율성을 더욱 향상시키기 위해, 우리는 시각-언어 모델(Vision-Language Model, VLM)을 주석 작성자의 대체재가 아닌, 어떤 비교가 진정으로 인간의 판단을 필요로 하는지 식별하는 extit{질문 우선순위 지정 도구(question prioritizer)}로 활용할 것을 제안합니다. 제안된 extbf{Surprise-Guided MergeSort (SGS)} 프레임워크는 세 가지 통합된 구성 요소를 통해 이를 달성합니다: (1) 비교를 구조화하고 이행성(transitivity)을 활용하는 상향식 병합 정렬(MergeSort) 스케줄러, (2) 비교의 모호성을 정량화하기 위해 위치 편향(position-bias)이 제거된 VLM 신뢰도, Elo 차이(Elo gap), 투표 엔트로피(vote entropy)를 결합한 복합 놀라움 점수 산출기(Surprise Scorer), (3) 높은 놀라움을 유발하는 쌍은 인간에게 전달하고, 낮은 놀라움을 유발하는 쌍은 이행성 추론을 통해 자동화하는 적응형 예산 할당기(adaptive budget allocator)입니다. 검증은 텍스트 유사도(STS-B, BIOSSES, SICKR-STS) 및 이미지 품질 평가(KonIQ-10k, TID2013, LIVE Challenge)를 아우르는 6개의 다양한 벤치마크에서 수행되었습니다. SGS는 세션당 최대 535개의 비정보적(non-informative) 비교를 효과적으로 식별하고 건너뛰었습니다. 결과적으로, 동일한 총 예산 하에서 Active Elo 대비 Kendall's $\tau{\times}100$ 수치를 $+6$에서 $+12$까지 향상시켰습니다. 이러한 결과는 VLM 가이드 놀라움 지표(surprise metrics)와 알고리즘 정렬을 결합하는 것이 다양한 도메인에 걸쳐 일반적으로 일관된 정확도-효율성 트레이드오프(accuracy-efficiency trade-off)를 제공함을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

놀라움 기반 병합 정렬(Surprise-Guided MergeSort): 적응형 비교 스케줄링을 통한 예산 효율적인 인간

요약

핵심 포인트

댓글