본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 21. 11:53

TimeSRL: 의미론적 RL-튜닝된 LLM을 통한 일반화 가능한 시계열 행동 모델링 — 정신 건강 사례 연구

요약

TimeSRL은 원시 시계열 데이터를 고수준의 자연어 의미론적 개념으로 추상화하여 행동을 예측하는 2단계 LLM 프레임워크입니다. GRPO와 RLVR을 활용해 중간 주석 없이도 의미론적 병목을 통해 학습하며, 정신 건강 예측 분야에서 데이터셋 간 분포 변화에도 강력한 일반화 성능을 입증했습니다.

핵심 포인트

  • 원시 신호를 자연어로 추상화하는 '의미론적 병목(semantic bottleneck)'을 통해 모델의 일반화 성능을 극대화함
  • GRPO 및 RLVR(검증 가능한 보상을 통한 강화학습)을 사용하여 정답 주석 없이 엔드투엔드 최적화 수행
  • 정신 건강(불안, 우울증) 예측 벤치마크에서 기존 ML 및 LLM 베이스라인 대비 MAE를 크게 감소시킴
  • 타겟 도메인 미세 조정 없이도 교차 코호트(LOSO) 환경에서 뛰어난 전이 학습 능력을 보여줌

종단적 수동 센싱 (Longitudinal passive sensing)은 지속적인 건강 예측을 가능하게 하지만, 모델들은 종종 데이터셋 간 분포 변화 (distribution shifts) 상황에서 실패하곤 합니다. 전통적인 머신러닝 (ML)은 특정 코호트에 특화된 인위적 요소 (artifacts)에 과적합되는 반면, 거대 언어 모델 (LLMs)은 길고 이질적인 시계열 (time-series) 데이터에 대해 신뢰할 수 있는 추론을 수행하는 데 어려움을 겪습니다. 우리는 예측을 명시적인 의미론적 병목 (semantic bottleneck)을 통해 전달하는 2단계 LLM 프레임워크인 TimeSRL을 소개합니다. 이 모델은 먼저 원시 신호 (raw signals)를 고수준의 자연어로 추상화한 다음, 이러한 추상화된 정보만을 사용하여 행동 결과를 예측합니다. 이는 모델이 원시 숫자보다 더 잘 일반화된다고 주장하는 의미론적 개념 (semantic concepts)을 바탕으로 추론하도록 강제합니다. 우리는 검증 가능한 보상을 통한 강화학습 (Reinforcement Learning from Verifiable Rewards, RLVR)과 그룹 상대 정책 최적화 (Group Relative Policy Optimization, GRPO)를 사용하여 이 과정을 엔드투엔드 (end-to-end)로 최적화하며, 정답 형태의 중간 주석 (gold intermediate annotations) 없이도 결과에 정렬된 추상화를 학습합니다. 정신 건강 예측에 적용된 TimeSRL은 엄격한 데이터셋 제외 (leave-one-dataset-out, LOSO) 프로토콜 하에 교차 코호트 일반화 능력을 테스트하도록 설계된 벤치마크에서 최첨단 (state-of-the-art) 성능을 달성했습니다. 이는 강력한 비-LLM ML 및 LLM 베이스라인 대비 불안 (anxiety)에 대해 평균 절대 오차 (mean absolute error, MAE)를 각각 3.110.1% 및 9.544.1% 감소시켰으며, 우울증 (depression)에 대해서는 3.29.6% 및 27.457.6% 감소시켰습니다 (모든 $p$값 < 0.05). TimeSRL은 서로 다른 센싱 파이프라인 간의 교차 벤치마크 전이 (cross-benchmark transfer)에서 이전 방법들을 크게 능가하며, 타겟 도메인 미세 조정 (fine-tuning) 없이도 자체 도메인 내 성능에 필적하는 결과를 보여주었습니다. 이러한 결과는 의미론적 추상화가 재사용 가능하다는 것을 입증하며, RL-튜닝된 LLM을 통한 일반화 가능한 행동 모델링의 새로운 방향을 제시합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0