arXiv논문2026. 06. 05. 13:45

Post-GCN 시대의 재고: 관계 학습 (Relational Learning)의 곡률 계층화 평가

요약

관계 학습 모델 평가 시 데이터의 기하학적 구조를 무시한 평균 성능 지표가 편향을 유발함을 지적합니다. 데이터셋을 곡률(Curvature)에 따라 계층화하여 평가하는 새로운 프레임워크를 제안하고 18개 모델을 검증했습니다.

핵심 포인트

기존 리더보드의 평균 성능 지표가 가진 체계적 편향 식별
데이터셋을 양/음/제로 곡률 영역으로 분할하는 평가 프레임워크 도입
모델 성능이 보편적이지 않고 데이터의 내재적 기하학에 의존함을 입증
기하학 인지 평가 프로토콜 및 코드/데이터셋 공개

관계 학습 (Relational Learning)의 현재 평가 관행은 이질적인 데이터셋 전반에 걸쳐 성능을 평균 내는 평면적인 리더보드 (Leaderboards)에 크게 의존하며, 이는 기저에 있는 구조가 균일하다는 암묵적인 가정을 전제로 합니다. 우리는 이러한 가정이 체계적인 편향 (Systematic bias)을 유발함을 보여줍니다. 즉, 기하학적 구조에 따른 성능 변화를 가리고 모델의 일반화 (Generalization)에 대해 오해의 소지가 있는 결론을 도출할 수 있습니다. 본 연구에서 우리는 모델의 효과성을 결정짓는 핵심적인 잠재 요인으로 내재적 기하학 (Intrinsic geometry)을 식별합니다. 우리는 기존의 집계된 지표 (Aggregated metrics)가 데이터셋을 기하학적 특성에 따라 계층화했을 때만 드러나는 중요한 성능 트레이드오프 (Performance trade-offs)를 은폐한다는 점을 입증합니다. 이 문제를 해결하기 위해, 우리는 데이터셋을 양의 곡률 (Positive curvature), 음의 곡률 (Negative curvature), 그리고 제로에 가까운 곡률 (Near-zero curvature) 영역으로 분할하는 곡률 계층화 평가 프레임워크 (Curvature-stratified evaluation framework)를 도입합니다. 우리의 벤치마크는 그래프 합성곱 신경망 (GCNs), 그래프 파운데이션 모델 (GFMs), 그리고 정형 데이터 학습 (Tabular learning) 방법론을 포함한 18개의 대표적인 모델을 14개의 데이터셋에 대해 평가합니다. 우리는 모델 순위가 각 곡률 영역 내에서는 매우 안정적이지만, 영역 간에는 크게 변화한다는 것을 발견했으며, 이는 성능이 보편적으로 전이 가능한 것이 아니라 근본적으로 기하학에 의존적임을 나타냅니다. 특히, 우리는 기하학적으로 정렬된 GNN (Geometry-aligned GNNs)과 비교했을 때 GFM (GFMs)의 효용이 감소하는 영역을 식별했습니다. 이러한 발견을 바탕으로, 우리는 표준 집계 벤치마크보다 더 신뢰할 수 있고 해석 가능한 비교를 제공하는 기하학 인지 평가 프로토콜 (Geometry-aware evaluation protocol)을 제안합니다. 우리는 향후 관계 학습 방법론의 재현 가능하고 엄격한 평가를 지원하기 위해 모든 코드, 곡률 계층화 데이터셋 분할, 그리고 평가 도구를 공개합니다. 코드와 데이터셋은 프로젝트 홈페이지에서 제공됩니다: https://sirbabbage.github.io/CurvBench_HOME/.

AI 자동 생성 콘텐츠

원문 바로가기

Post-GCN 시대의 재고: 관계 학습 (Relational Learning)의 곡률 계층화 평가

요약

핵심 포인트

댓글