SemPiper: 머신러닝 파이프라인 내 시맨틱 연산자를 위한 대화형 코드 합성
요약
SemPipes는 LLM을 활용하여 머신러닝 파이프라인 내 시맨틱 데이터 연산자를 선언적으로 합성하는 새로운 프로그래밍 모델입니다. 대화형 인터페이스인 SemPiper를 통해 개발자는 자연어 지침을 Python 코드와 결합하고, 파이프라인 최적화 과정을 시각적으로 제어할 수 있습니다.
핵심 포인트
- LLM 기반의 선언적 시맨틱 데이터 연산자 도입
- 자연어 지침과 표준 Python 라이브러리의 원활한 결합
- 데이터셋 특성에 맞춘 학습 시점의 코드 합성 구현
- SemPiper 인터페이스를 통한 계산 그래프 및 최적화 시각화
머신러닝 (ML) 파이프라인은 광범위한 데이터 준비, 피처 엔지니어링 (feature engineering), 그리고 이기종 소스 간의 통합을 필요로 하며, 이로 인해 개발 과정이 지루하고 오류가 발생하기 쉽습니다. 최근 대규모 언어 모델 (LLMs)이 프로그래밍 작업을 보조하는 데 유망한 가능성을 보여주었으나, 채팅 기반 인터페이스는 파이프라인 동작에 대한 제어가 제한적이며, 최적화하거나 프로덕션 시스템에 통합하기 어려운 코드를 생성하는 경우가 많습니다. 우리는 선언적이고 LLM 기반의 시맨틱 데이터 연산자 (semantic data operators)를 통해 ML 파이프라인을 확장하는 새로운 프로그래밍 모델인 SemPipes를 선보입니다. SemPipes를 통해 개발자는 데이터 중심 작업에 대해 고수준의 자연어 지침을 지정할 수 있는 동시에, 이러한 연산자들을 표준 데이터 과학 라이브러리의 임의의 Python 코드와 원활하게 결합할 수 있습니다. 시맨틱 연산자의 경우, 데이터셋의 특성과 파이프라인 컨텍스트 (context)를 조건으로 하여 파이프라인 학습 시점에 특화된 구현을 합성함으로써, LLM 기능의 유연하면서도 제어 가능한 통합을 가능하게 합니다. 우리는 파이프라인의 계산 그래프 (computational graphs), 합성된 연산자 구현, 그리고 진화적 탐색 (evolutionary search) 절차에 의해 생성된 최적화 궤적을 시각화하는 대화형 인터페이스인 SemPiper를 통해 SemPipes를 입증합니다. 참가자들은 세 가지 엔드 투 엔드 (end-to-end) 시나리오를 탐색하고, 파이프라인을 수정하며, 생성된 코드를 검사하고, 시맨틱 연산자가 어떻게 합성되고 반복적으로 최적화되는지 관찰할 수 있습니다. 이 데모는 선언적 시맨틱 연산자가 어떻게 LLM을 ML 파이프라인 개발에 제어 가능하고, 최적화 가능하며, 실용적으로 통합할 수 있게 하는지를 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기