arXiv논문2026. 05. 26. 12:50

Double Triangle Annotation: 고정밀 역사적 문서 주석을 위한 확장 가능한 Human-in-the-Loop 프레임워크

요약

역사적 문서의 고정밀 정보 추출을 위해 모델 간 합의를 활용하는 2계층 Human-in-the-loop 프레임워크인 Double Triangle Annotation을 제안합니다. MLLM의 교차 검증과 인간의 개입을 결합하여 환각을 최소화하고 대규모 자동화를 달성했습니다.

핵심 포인트

모델 간 합의를 통한 주석 자동화 및 고정밀 보장
불일치 발생 시 인간 배심원 및 전문가에게 에스컬레이션
프랑스 의료 디렉토리 코퍼스에서 0.003의 낮은 WER 달성
85% 이상의 필드를 모델 합의로 자동 수락 가능

역사적 문서로부터 구조화된 정보(structured-information)를 대규모로 추출하는 것을 평가하기 위해서는 고정밀의 정답(ground-truth) 주석이 필요하지만, 전통적인 수동 레이블링(manual labeling)은 비용이 많이 들며, 대규모 언어 모델(Large Language Models, LLMs)을 기반으로 구축된 완전 자동화 파이프라인은 환각(hallucination) 현상이 발생하기 쉽습니다. 우리는 모델 간의 합의(cross-model consensus)를 활용하여 주석 작업의 대부분을 자동화하는 동시에 고정밀 출력을 보장하는 2계층 Human-in-the-loop 프레임워크인 Double Triangle Annotation을 제안합니다. 첫 번째 계층에서는 아키텍처가 독립적인 두 개의 멀티모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)이 각 문서를 병렬로 주석 처리합니다. 두 모델의 의견이 일치하면 레이블이 자동으로 수락되며, 의견이 불일치하는 경우 인간 배심원(human jury)에게 전달됩니다. 두 번째 계층은 이러한 두 시스템을 서로 교차 검증하며, 남아있는 충돌 사항을 도메인 전문가(domain expert)에게 에스컬레이션합니다. 이 프레임워크는 모델 간의 오류 독립성(error independence)이라는 단일 가정에 기반하며, 분포 사전 확률(distributional priors)이나 작업별 보정(task-specific calibration)을 필요로 하지 않고, 모델의 능력이 향상됨에 따라 더욱 자율적으로 변합니다. 1887년부터 1906년까지의 프랑스 의료 디렉토리 코퍼스인 Guides Rosenwald를 대상으로 실험한 결과, 이 프레임워크는 0.003의 최종 단어 오류율(Word Error Rate, WER)을 달성했습니다. 대규모로 적용했을 때, 모델 합의를 통해 13,595개 필드의 85% 이상이 자동으로 수락되었습니다. 우리는 향후 역사적 문서 처리 연구를 지원하기 위해 Rosenwald Guides에 대한 최초의 구조화된 추출 정답(structured-extraction ground truth)인 결과 벤치마크를 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Double Triangle Annotation: 고정밀 역사적 문서 주석을 위한 확장 가능한 Human-in-the-Loop 프레임워크

요약

핵심 포인트

댓글