MetaPS: 시장 에이전트를 위한 적응형 프로그래밍 전략 선택
요약
MetaPS는 시장 상황에 따라 최적의 프로그래밍 전략을 선택하는 적응형 에이전트 프레임워크를 제안합니다. LLM이 직접 행동을 생성하는 대신, 검증된 전략 라이브러리에서 최적의 코드를 선택하도록 학습시켜 성능과 해석 가능성을 높였습니다.
핵심 포인트
- 시장 상황에 맞춰 모멘텀, 평균 회귀 등 최적 전략을 선택하는 패러다임 제안
- 시뮬레이션 데이터를 활용한 지도 미세 조정(SFT) 방식 도입
- 직접 의사결정 방식보다 높은 성능과 향상된 해석 가능성 입증
- 소형 미세 조정 모델이 강력한 API 기반 LLM을 능가하는 결과 도출
단 하나의 시장 전략이 항상 승리하는 것은 아닙니다. 모멘텀 (momentum), 평균 회귀 (mean reversion), 리스크 관리 (risk control), 그리고 이벤트 드리븐 (event-driven) 규칙은 시장 상황이 변화함에 따라 각각 성공하거나 실패할 수 있습니다. 대규모 언어 모델 (LLM)에게 시장 행동을 직접 생성하도록 요청하는 대신, 우리는 에이전트가 시장 관측치를 행동으로 매핑하는 코드 모듈로 구현된 프로그래밍 전략 라이브러리에서 선택을 수행하는 실행 가능한 의사결정 패러다임을 연구합니다. 우리는 적응형 프로그래밍 전략 선택을 위한 시뮬레이션 가이드 프레임워크인 extbf{MetaPS}를 제안합니다. MetaPS는 시뮬레이션되거나 백테스트된 시장에서 후보 전략들을 실행하고, 특정 전략이 더 나은 미래 결과를 이끄는 상태를 식별하며, 이러한 상태-전략 쌍을 지도 미세 조정 (supervised fine-tuning, SFT) 데이터로 변환합니다. 추론 (inference) 단계에서는 시뮬레이터를 더 이상 호출하지 않습니다. MetaPS는 현재의 시장 상태와 후보 전략 컨텍스트만을 관찰하여 적절한 전략 프로그램을 선택하며, 선택된 프로그램이 최종 행동을 생성합니다. 다중 주식 거래 및 통제된 상품 교환 샌드박스에서의 실험 결과, MetaPS는 0.8B에서 9B 파라미터에 이르는 모델 규모 전반에 걸쳐 일관되게 성능을 향상시킴을 보여주었습니다. 이는 고정 전략 베이스라인, 직접 의사결정 에이전트, 그리고 프롬프트 기반 API LLM 에이전트보다 뛰어난 성능을 보입니다. 여러 설정에서 소형 미세 조정 모델이 심지어 더 강력한 API 모델을 능가하기도 했습니다. 이러한 결과는 시장 시뮬레이션이 적응형, 해석 가능하며, 실행 가능한 전략 선택을 학습하기 위한 확장 가능하고 타겟팅된 감독 (supervision)을 제공할 수 있음을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기