잠재 반복 정제(Latent Iterative Refinement)를 통한 심볼릭 회귀(Symbolic Regression)
요약
심볼릭 회귀의 분할 상환 격차를 해소하기 위해 잠재 방정식 임베딩(LEE) 프레임워크를 제안합니다. 잠재 공간 내에서 반복적인 정제 과정을 통해 데이터에 부합하는 더 단순하고 정확한 수학식을 찾아냅니다.
핵심 포인트
- 잠재 공간 내 반복적 추론을 통한 분할 상환 격차 해소
- 심볼릭 토큰과 수치 데이터를 통합하는 공유 잠재 공간 학습
- 경사 하강법과 이산적 재인코딩을 결합한 하이브리드 정제
- 기존 베이스라인 대비 훨씬 단순하고 정확한 수식 생성
심볼릭 회귀 (Symbolic Regression, SR)는 관측된 데이터에 부합하는 폐쇄형 (closed-form) 수학식을 찾는 것을 목표로 합니다. 신경망 기반의 SR 방법들은 인코더 (encoder)를 학습시켜 관측값을 단 한 번의 과정으로 수식에 직접 매핑함으로써 탐색 과정을 분할 상환 (amortize)하지만, 이러한 분할 상환 추론 (amortized inference)은 단판 예측 (one-shot prediction)과 실제 사후 확률 (true posterior) 사이에 잔여 분할 상환 격차 (residual amortization gap)를 남깁니다. 본 논문에서는 기능적으로 근거가 있는 잠재 공간 (latent space) 내에서 반복적인 분할 상환 추론을 통해 이 격차를 해소하는 프레임워크인 잠재 방정식 임베딩 (Latent Equation Embedding, LEE)을 제안합니다. LEE는 다음 세 가지 구성 요소를 갖춘 공유 잠재 공간 $Z$를 학습합니다: 심볼릭 토큰 (symbolic tokens)과 수치적 관측값 (numerical observations)을 하나의 잠재 벡터 $z$로 공동 임베딩하는 인코더 $f_{\theta}$; $z$로부터 수식을 재구성하는 수식 디코더 (expression decoder) $g_{\text{expr}}$; 그리고 $z$로부터 함수 값을 예측하여 잠재 공간을 기능적 동작에 명시적으로 근거하게 하는 평가 디코더 (evaluation decoder) $g_{\text{eval}}$입니다. 추론 시, LEE는 디코딩된 수식을 관측값과 함께 공동으로 재인코딩함으로써 잠재 추정치를 점진적으로 개선하는 반복 정제 (iterative refinement)를 수행합니다. LEE는 인코더 자체를 학습된 추론 최적화 도구 (inference optimizer)로 사용하며, 각 재인코딩 단계는 후보 수식과 데이터 사이의 불일치를 암묵적으로 계산합니다. $g_{\text{eval}}$은 $z$에 대해 미분 가능하므로, 우리는 연속적인 경사 하강법 (gradient descent)과 이산적 재인코딩 (discrete re-encoding)을 교차하여 하이브리드 반복 및 경사 정제 절차를 생성합니다. 세 가지 노이즈 수준에 걸친 SRBench에서 유전 프로그래밍 (genetic programming), 심볼릭-신경 하이브리드 (symbolic-neural hybrids), 사전 학습된 Transformer를 아우르는 19개의 베이스라인과 비교했을 때, LEE는 Operon, GP-GOMEA, TPSR, RAG-SR, GenSR를 포함한 가장 강력한 정확도 중심 베이스라인들보다 210배 더 단순한 수식을 생성하며, 복잡도는 2090 대비 8~11을 기록했습니다. 이러한 결과는 정확도-복잡도 파레토 프런티어 (accuracy-complexity Pareto frontier)의 저복잡도 영역을 발전시키며, 노이즈가 증가함에 따라 우아한 성능 저하 (graceful degradation)를 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기