RVL-CDIP 수정: 오류 정량화 및 테스트-훈련 중복 분석

RVL-CDIP는 문서 분류기 (document classifiers)의 벤치마킹을 위한 대중적인 데이터셋입니다. 그러나 이 데이터셋은 모델 성능 지표에 영향을 미칠 수 있는 상당한 양의 레이블 오류 (label errors)와 무시할 수 없는 수준의 테스트-훈련 중복 (test-train overlap)을 포함하고 있습니다. 본 논문에서 우리는 (1) 레이블 오류를 찾아 수정하고, (2) 테스트-훈련 중복을 탐지 및 해결함으로써 이 두 가지 문제를 다룹니다. 우리는 레이블 오류와 테스트-훈련 중복을 수정한 여러 버전의 RVL-CDIP를 생성하였으며, 이러한 새로운 RVL-CDIP 변형 데이터셋을 통해 문서 분류 성능을 벤치마킹했습니다. RVL-CDIP에 대한 엄격한 분석 결과, 코퍼스(corpus) 내에 12%의 레이블 오류와 약 35%의 테스트-훈련 중복이 존재함을 발견했습니다. 교정 결과, 오류를 제거했을 때는 분류 정확도 (classification accuracy)가 향상되었으나, 중복을 제거했을 때는 정확도가 감소하는 것을 확인했습니다. 추가적으로 우리는 분포 외 (out-of-distribution, OOD) 벤치마크인 RVL-CDIP-N에서 모델을 평가하였으며, 오류가 수정된 데이터로 학습하는 것이 OOD 일반화 (OOD generalization)를 실질적으로 향상시킨다는 것을 발견했습니다. 지도 학습 모델 (supervised models)의 경우 정확도가 평균 8.1%포인트 향상되었으며, 최대 14%포인트의 향상을 보이기도 했습니다.

Insights

RVL-CDIP 수정: 오류 정량화 및 테스트-훈련 중복 분석

요약

핵심 포인트

댓글

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들