본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 01. 16:24

훈련 분포를 넘어선 것: 신경망 프로그램 합성에서의 일반화 경계 매핑

요약

본 논문은 대규모 트랜스포머 모델이 프로그램 합성에서 보여주는 일반화 능력을 엄격하게 평가하는 방법을 제안한다. 기존 연구들이 데이터 분포에 의존하는 한계를 지적하며, 도메인 특화 산술 문법 기반의 통제된 환경을 구축하여 수백만 개의 고유한 프로그램을 체계적으로 열거하고 분석했다. 실험 결과, 모델은 밀도 일반화(density generalization)에서는 강력하지만, 구문적으로 새로운 영역으로 외삽해야 하는 서포트 일반화(support generalization)에서는 성능 저하를 겪는 것으로 나타났다. 이는 현재의 스케일링 방식으로는 근본적인 한계가 있음을 시사하며, 다양한 다양체(manifolds)를 아우르는 검색 기반 접근법이 필요함을 강조한다.

핵심 포인트

  • 프로그램 합성 모델의 일반화 능력을 평가하기 위해 도메인 특화 산술 문법을 활용한 통제된 환경을 구축했다.
  • 모델은 데이터 분포 내에서의 샘플링(밀도 일반화)에서는 강하지만, 새로운 구문적 영역으로 외삽하는 것(서포트 일반화)에는 취약하다.
  • 컴퓨팅 자원 확장에 따른 성능 개선 효과는 로그선형 관계를 따르므로 근본적인 한계가 존재한다.
  • 견고한 일반화를 위해서는 여러 다양체에 걸친 훈련 다양성을 극대화하고, 이를 위한 새로운 검색 기반 접근법이 필요하다.

대규모 트랜스포머 (transformers) 는 프로그램 합성 벤치마크에서 놀라운 결과를 달성하지만, 데이터 오염과 불투명한 훈련 코퍼스로 인해 그 진정한 일반화 능력은 여전히 가려져 있습니다. 모델이 실제로 일반화하고 있는지 아니면 단순히 암기한 템플릿을 검색하는지에 대해 엄격하게 평가하기 위해, 도메인 특화 산술 문법 (arithmetic grammar) 에 기반한 엄격하게 통제된 프로그램 합성 환경을 도입합니다. 수백만 개의 고유한 프로그램을 체계적으로 열거하고 평가함으로써 해석 가능한 구문적 및 의미적 지표 공간 (metric spaces) 을 구성합니다. 이를 통해 데이터 분포를 정밀하게 매핑하고, 특정 분포 이동을 격리하는 훈련과 테스트 세트를 샘플링할 수 있습니다. 우리의 실험 결과는 밀도 일반화 (density generalization) 를 최적화함으로써 -- 즉 의미적 및 구문적 공간 모두에 대한 다양한 샘플링을 통해 -- 강력한 오스트라이드스트리뷰션 (out-of-distribution) 일반화를 유도함을 보여줍니다. 반면, 서포트 일반화 (support generalization) 를 평가한 결과 트랜스포머는 외삽 (extrapolation) 에서 심각한 어려움을 겪으며, 구문적으로 새로운 프로그램을 생성하도록 강요받을 때 성능이 30% 이상 하락하는 것을 경험합니다. 컴퓨팅 자원을 꾸준히 확장하면 일반화가 개선되지만, 그 이득은 엄격히 로그선형 (log-linear) 관계를 따릅니다. 우리는 견고한 일반화를 위해서는 여러 다양체 (manifolds) 를 가로지르는 훈련 다양성을 극대화해야 하며, 우리의 발견은 현재 로그선형 스케일링 병목 현상을 극복하기 위해 새로운 검색 기반 (search-based) 접근법의 필요성을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0