성능 착시를 넘어: 공간 상관 도메인을 위한 구조 인식 층화 분할 및 커리큘럼 분포 강건 최적화

AI 시스템의 성능 평가는 일반적으로 무작위 데이터셋 분할이 독립 동일 분포 (i.i.d.) 서브셋을 생성한다고 가정합니다. 본 연구에서는 항공 감시, 정밀 농업, 의료 영상과 같은 시공간적으로 상관된 (spatiotemporally correlated) 도메인에서 이러한 가정이 자주 무너진다는 것을 보여주며, 이는 두 가지 체계적인 실패로 이어집니다. 첫째는 상관된 샘플이 훈련 및 검증 분할에 걸쳐 나타나 성능 추정치를 부풀리는 데이터 누수 (data leakage)이며, 둘째는 소수 하위 집단에 대한 오류가 집계된 지표에 의해 가려지는 숨겨진 층화 (hidden stratification)입니다. 이러한 문제를 해결하기 위해, 우리는 공간적으로 상관된 데이터를 위한 통합된 평가 및 훈련 프레임워크를 제안합니다. 우리는 유의미한 클래스 균형을 유지하면서 시공간적 누수를 줄이는 검증 분할을 구축하는 구조 인식 층화 분할 (Structure-Aware Stratified Partitioning, SASP)과, 이러한 더 엄격한 분할 하에서 최적화를 안정화하는 분포 강건 훈련 (distributionally robust training)의 커리큘럼 기반 완화 방식인 커리큘럼 분포 강건 최적화 (Curriculum Distributionally Robust Optimization, CDRO)를 도입합니다. 여러 벤치마크에 걸쳐, 이 조합은 일관되게 향상된 일반화 (generalization), 더 신뢰할 수 있는 신뢰도 교정 (confidence calibration)을 제공하며, 기존의 무작위 분할 평가 하에서는 숨겨져 있던 실패 모드들을 드러냅니다.

Insights

성능 착시를 넘어: 공간 상관 도메인을 위한 구조 인식 층화 분할 및 커리큘럼 분포 강건 최적화

요약

핵심 포인트

댓글

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때