arXiv논문2026. 06. 19. 10:45

정확도를 넘어: 예측 모델의 논리적 준수 여부 측정

요약

기존 머신러닝 평가 지표가 놓치기 쉬운 모델의 논리적 제약 조건 준수 여부를 측정하기 위해 '규칙 위반 점수(RVS)'를 제안합니다. RVS는 엄격한 규칙과 소프트 규칙을 구분하여 모델의 논리적 일관성을 정량화하며, 다양한 벤치마크를 통해 그 유효성을 입증했습니다.

핵심 포인트

예측 정확도와 별개로 논리적 일관성을 측정하는 RVS 지표 제안
엄격한 규칙(Hard rules)과 소프트 규칙(Soft rules)을 구분하여 평가
SQL 쿼리를 활용해 관계형 데이터셋 및 다양한 모델에 적용 가능
표준 지표가 포착하지 못하는 모델의 논리적 결함 식별 가능

머신러닝 (Machine learning) 모델은 주로 순위 품질 (ranking quality), 예측 오차 (prediction error), 또는 분류 정확도 (classification accuracy)와 같은 예측 성능 지표를 통해 평가됩니다. 이러한 지표들은 예측값이 실제 정답 (ground truth)과 얼마나 밀접하게 일치하는지를 효과적으로 정량화하지만, 모델의 출력이 사전에 정의된 논리적 또는 도메인 특화된 제약 조건 (constraints)을 준수하는지는 평가하지 못합니다. 의료, 금융, 자율 주행 시스템을 포함한 고위험 (high-stakes) 애플리케이션에서 논리적 일관성 (logical consistency)은 예측 정확도만큼이나 중요할 수 있지만, 이 차원을 포착하는 표준 지표는 아직 없습니다. 우리는 예측 정확도와는 독립적으로, 예측 모델이 주어진 논리 규칙 집합을 준수하는 정도를 정량화하는 보완적 평가 지표인 규칙 위반 점수 (Rule Violation Score, RVS)를 소개합니다. RVS는 엄격한 규칙 (hard rules, 엄격한 제약 조건)과 소프트 규칙 (soft rules, 통계적 규칙성)을 다르게 취급하며, 관계형 어휘 (relational vocabulary)로 표현된 모든 데이터셋과 모든 예측 모델에 대해 평가될 수 있고, Horn 규칙 (Horn rules)을 위해 자동으로 생성된 SQL 쿼리를 사용하여 계산될 수 있습니다. 모델을 평가하는 것을 넘어, RVS는 훈련 데이터셋의 논리적 일관성을 평가하고 잘못 정의된 규칙을 식별하는 데 도움을 줄 수 있습니다. 우리는 규칙 기반 (rule-based), 임베딩 기반 (embedding-based), 그리고 신경 기호적 (neuro-symbolic) 예측 모델을 포함하여 지식 그래프 링크 예측 (knowledge graph link prediction) 및 관계형 회귀 (relational regression)를 다루는 세 가지 벤치마크에서 RVS를 평가합니다. 우리의 결과는 유사한 예측 정확도를 달성한 두 모델이 논리적 준수 수준에서 실질적으로 다른 양상을 보일 수 있음을 입증하며, 이는 표준 지표가 포착하지 못하는 모델 행동의 차이를 드러냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

정확도를 넘어: 예측 모델의 논리적 준수 여부 측정

요약

핵심 포인트

댓글