arXiv논문2026. 05. 27. 12:02

잠재 반복 정제(Latent Iterative Refinement)를 통한 심볼릭 회귀(Symbolic Regression)

요약

심볼릭 회귀의 분할 상환 격차를 해소하기 위해 잠재 방정식 임베딩(LEE) 프레임워크를 제안합니다. 잠재 공간 내에서 반복적인 정제 과정을 통해 데이터에 부합하는 더 단순하고 정확한 수학식을 찾아냅니다.

핵심 포인트

잠재 공간 내 반복적 추론을 통한 분할 상환 격차 해소
심볼릭 토큰과 수치 데이터를 통합하는 공유 잠재 공간 학습
경사 하강법과 이산적 재인코딩을 결합한 하이브리드 정제
기존 베이스라인 대비 훨씬 단순하고 정확한 수식 생성

심볼릭 회귀 (Symbolic Regression, SR)는 관측된 데이터에 부합하는 폐쇄형 (closed-form) 수학식을 찾는 것을 목표로 합니다. 신경망 기반의 SR 방법들은 인코더 (encoder)를 학습시켜 관측값을 단 한 번의 과정으로 수식에 직접 매핑함으로써 탐색 과정을 분할 상환 (amortize)하지만, 이러한 분할 상환 추론 (amortized inference)은 단판 예측 (one-shot prediction)과 실제 사후 확률 (true posterior) 사이에 잔여 분할 상환 격차 (residual amortization gap)를 남깁니다. 본 논문에서는 기능적으로 근거가 있는 잠재 공간 (latent space) 내에서 반복적인 분할 상환 추론을 통해 이 격차를 해소하는 프레임워크인 잠재 방정식 임베딩 (Latent Equation Embedding, LEE)을 제안합니다. LEE는 다음 세 가지 구성 요소를 갖춘 공유 잠재 공간 $Z$를 학습합니다: 심볼릭 토큰 (symbolic tokens)과 수치적 관측값 (numerical observations)을 하나의 잠재 벡터 $z$로 공동 임베딩하는 인코더 $f_{\theta}$; $z$로부터 수식을 재구성하는 수식 디코더 (expression decoder) $g_{\text{expr}}$; 그리고 $z$로부터 함수 값을 예측하여 잠재 공간을 기능적 동작에 명시적으로 근거하게 하는 평가 디코더 (evaluation decoder) $g_{\text{eval}}$입니다. 추론 시, LEE는 디코딩된 수식을 관측값과 함께 공동으로 재인코딩함으로써 잠재 추정치를 점진적으로 개선하는 반복 정제 (iterative refinement)를 수행합니다. LEE는 인코더 자체를 학습된 추론 최적화 도구 (inference optimizer)로 사용하며, 각 재인코딩 단계는 후보 수식과 데이터 사이의 불일치를 암묵적으로 계산합니다. $g_{\text{eval}}$은 $z$에 대해 미분 가능하므로, 우리는 연속적인 경사 하강법 (gradient descent)과 이산적 재인코딩 (discrete re-encoding)을 교차하여 하이브리드 반복 및 경사 정제 절차를 생성합니다. 세 가지 노이즈 수준에 걸친 SRBench에서 유전 프로그래밍 (genetic programming), 심볼릭-신경 하이브리드 (symbolic-neural hybrids), 사전 학습된 Transformer를 아우르는 19개의 베이스라인과 비교했을 때, LEE는 Operon, GP-GOMEA, TPSR, RAG-SR, GenSR를 포함한 가장 강력한 정확도 중심 베이스라인들보다 2~~10배 더 단순한 수식을 생성하며, 복잡도는 20~~90 대비 8~11을 기록했습니다. 이러한 결과는 정확도-복잡도 파레토 프런티어 (accuracy-complexity Pareto frontier)의 저복잡도 영역을 발전시키며, 노이즈가 증가함에 따라 우아한 성능 저하 (graceful degradation)를 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

잠재 반복 정제(Latent Iterative Refinement)를 통한 심볼릭 회귀(Symbolic Regression)

요약

핵심 포인트

댓글