arXiv논문2026. 06. 24. 11:22

FlowPipe: 데이터 준비 파이프라인 구축을 위한 LLM 강화 조건부 생성 흐름 네트워크 (Conditional Generative

요약

FlowPipe는 LLM의 논리적 사전 지식과 C-GFlowNets를 결합하여 데이터 준비 파이프라인을 자동으로 구축하는 통합 프레임워크입니다. 기존 Multi-DQN 방식의 한계를 극복하여 데이터셋 문맥을 반영하고 탐색 효율성을 높였습니다. 실험 결과, 기존 SOTA 대비 정확도 11.96% 향상 및 12.5배 빠른 학습 수렴을 달성했습니다.

핵심 포인트

C-GFlowNets를 활용한 조건부 확률적 흐름 생성 방식 도입
FiLM을 통한 LLM의 논리적 사전 지식과 데이터셋 의미론 결합
실패 인지(failure awareness)를 통한 무효 상태 회피 및 탐색 최적화
기존 SOTA 대비 정확도 11.96% 향상 및 수렴 속도 12.5배 개선

데이터 준비 파이프라인 (Data preparation pipelines)은 순차적인 클리닝 (cleaning) 및 특성 변환 (feature transformation) 연산자를 통해 원시 테이블을 학습 가능한 데이터로 변환함으로써 머신러닝의 데이터 품질을 향상시킵니다. 그러나 연산자 시퀀스가 조합론적(combinatorial)이고 엔드투엔드 (end-to-end) 평가 비용이 많이 들기 때문에, 이러한 파이프라인을 자동으로 구축하는 것은 계산적으로 어렵습니다. 기존의 최첨단 (SOTA) Multi-DQN 방식들은 여전히 세 가지 주요 한계에 직면해 있습니다: 분리된 가치 추정기 (decoupled value estimators)가 장기적 신용 할당 (long-horizon credit assignment)을 약화시키고, 데이터셋 문맥 (dataset context)이 정책 (policy)에 약하게만 주입되며, 많은 무효 상태 (invalid states)가 존재하는 희소한 탐색 공간 (sparse search space)에서 탐색 (exploration)이 비효율적이라는 점입니다. 이러한 문제를 해결하기 위해, 우리는 파이프라인 합성을 유향 비순환 그래프 (directed acyclic graph, DAG) 상의 조건부 확률적 흐름 생성 (conditional probabilistic flow generation)으로 공식화하는 통합 프레임워크인 FlowPipe를 제안합니다. FlowPipe는 궤적 균형 (Trajectory Balance) 목적 함수를 사용하는 조건부 생성 흐름 네트워크 (Conditional Generative Flow Networks, C-GFlowNets)를 사용하여 최종 검증 보상 (terminal validation rewards)을 초기 파이프라인 결정과 연결합니다. 또한, 특성별 선형 변조 (Feature-wise Linear Modulation, FiLM)를 통한 심층 의미론적 변조 (Deep Semantic Modulation)를 도입하여, LLM에서 도출된 논리적 사전 지식 (logical priors)이 데이터셋 의미론에 따라 정책의 내부 활성화 (internal activations)를 조건화할 수 있도록 합니다. 아울러, FlowPipe는 흐름 목적 함수에 실패 인지 (failure awareness)를 통합하여 무효 상태를 피하고 잠재력이 높은 영역에 탐색을 집중시킵니다. 74개의 실제 데이터셋이 포함된 두 개의 벤치마크 스위트에서 수행된 실험 결과, FlowPipe는 SOTA 베이스라인보다 성능이 뛰어남을 보여주었으며, 평균적으로 정확도를 11.96% 향상시키고 12.5배 빠른 학습 수렴 (training convergence)을 달성했습니다. 소스 코드는 https://github.com/KunyuNi/FlowPipe 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

FlowPipe: 데이터 준비 파이프라인 구축을 위한 LLM 강화 조건부 생성 흐름 네트워크 (Conditional Generative

요약

핵심 포인트

댓글