arXiv논문2026. 06. 16. 12:20

LLM 코딩 에이전트가 시계열 데이터에 대해 추론할 수 있는가?

요약

LLM 코딩 에이전트의 시계열 데이터 분석 능력을 세 가지 접근 방식으로 비교 연구했습니다. 코딩 에이전트 방식이 수치 데이터 직접 제공 방식보다 성능이 높지만, 여전히 추론 격차와 통계적 뉘앙스를 놓치는 한계가 있음을 확인했습니다.

핵심 포인트

코딩 에이전트 방식이 수치 데이터 직접 제공보다 최대 10% 높은 성능 기록
에이전트가 적절한 통계 테스트를 선택할 수 있으나 세부 뉘앙스 파악은 미흡
가공되지 않은 데이터 접근 시 모델은 어림셈을 통해 결론에 도달함
최고 성능 에이전트도 약 22-34%의 오답률을 보이는 추론 격차 존재

대규모 언어 모델 (LLMs)은 금융, 의료 또는 환경 모니터링 분야의 자동 의사결정 시스템을 위해 점점 더 많이 사용되고 있습니다. 시계열 (Time series) 데이터는 이러한 분야에서 어디에나 존재하지만, 자동으로 처리하기는 어렵습니다. LLM 에이전트가 시계열 데이터를 분석할 수 있을까요? 우리는 세 가지 접근 방식을 조사합니다: 에이전트에게 가공되지 않은 수치 데이터 (raw numerical data)를 제공하는 방식, LLM을 코딩 에이전트 (coding agent)로 사용하는 방식, 또는 이 두 가지를 결합하는 방식입니다. 코딩 에이전트 설정에서 모델은 Python 코드를 사용하여 반복적으로 데이터를 쿼리합니다. 두 가지 시계열 이해 벤치마크를 사용하여, 코드 접근 권한이 있는 에이전트가 가공되지 않은 데이터를 처리하는 모델보다 최대 10% 더 높은 성능을 보일 수 있음을 보여줍니다. 그러나 가장 성능이 좋은 에이전트조차 여전히 질문의 약 22-34%를 잘못 답변합니다. 모델의 전략과 추론 격차 (reasoning gaps)에 대한 통찰을 얻기 위해, 우리는 강력한 LLM 판사 (LLM judge)를 사용하여 모델 출력을 분석합니다. 우리의 분석에 따르면 코딩 에이전트는 적절한 통계 테스트 (statistical tests)를 선택할 수 있지만, 종종 중요한 뉘앙스를 놓칩니다. 한편, 가공되지 않은 데이터에 접근할 수 있는 모델은 어림셈 (back-of-the-envelope calculations)을 사용하여 올바른 결론에 도달할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 코딩 에이전트가 시계열 데이터에 대해 추론할 수 있는가?

요약

핵심 포인트

댓글