arXiv논문2026. 05. 22. 21:09

Spreadsheet-RL: 강화학습 (RL)을 통한 현실적인 스프레드시트 작업에서의 대규모 언어 모델 (LLM) 에이전트 성능 향상

요약

Spreadsheet-RL은 강화학습(RL)을 활용하여 복잡한 스프레드시트 작업을 수행하는 LLM 에이전트의 성능을 높이는 새로운 프레임워크입니다. Microsoft Excel 환경에서 다단계 워크플로우를 처리할 수 있도록 설계되었으며, 새로운 벤치마크 데이터셋과 Spreadsheet Gym 환경을 함께 제안합니다.

핵심 포인트

강화학습 미세 조정을 통한 스프레드시트 에이전트 성능 향상
복잡한 다단계 워크플로우 처리를 위한 Spreadsheet-RL 프레임워크 제안
새로운 Domain-Spreadsheet 벤치마크 및 Spreadsheet Gym 환경 구축
Qwen3-4B 모델의 Pass@1 성능을 대폭 개선

스프레드시트 시스템(예: Microsoft Excel, Google Sheets)은 현대의 데이터 중심 워크플로우에서 핵심적인 역할을 수행합니다. AI 에이전트가 컴퓨터 제어 및 프레젠테이션 생성과 같은 복잡한 작업을 자동화하는 능력이 점점 향상됨에 따라, AI 기반 스프레드시트 에이전트를 구축하는 것이 유망한 연구 방향으로 떠오르고 있습니다. 기존의 대부분의 스프레드시트 에이전트는 범용 LLM (Large Language Models)에 대한 특화된 프롬프팅 (Prompting)에 의존합니다. 이러한 설계는 단순한 스프레드시트 작업에는 잠재력이 있지만, 실제 응용 분야에서 전형적으로 나타나는 복잡하고 다단계적인 워크플로우를 관리하는 데에는 어려움을 겪습니다. 본 논문에서는 현실적인 Microsoft Excel 환경 내에서 특화된 스프레드시트 에이전트를 훈련하도록 설계된 강화학습 (RL, Reinforcement Learning) 미세 조정 (Fine-tuning) 프레임워크인 Spreadsheet-RL을 소개합니다. Spreadsheet-RL은 온라인 포럼으로부터 쌍을 이룬 시작-목표 스프레드시트를 확장 가능한 방식으로 수집하기 위한 자동화된 파이프라인을 특징으로 하며, 금융 및 공급망 관리와 같은 분야의 도메인 특화 평가 작업 또한 특징으로 합니다. 우리는 이를 새로운 Domain-Spreadsheet 벤치마크 데이터셋으로 컴파일하였습니다. 또한 다회차 RL (Multi-turn RL)을 위해 설계된 Spreadsheet Gym 환경을 포함합니다. Spreadsheet Gym은 Python 샌드박스(Sandbox)를 통해 광범위한 Excel 기능을 노출하며, 스프레드시트 작업을 위한 포괄적인 도구 세트와 정교하게 설계된 도구 라우팅 (Tool-routing) 규칙이 통합된 정제된 하네스 (Harness)를 제공합니다. 종합적인 실험을 통해, 우리는 Spreadsheet-RL이 일반 및 도메인 특화 스프레드시트 작업 모두에서 AI 에이전트의 성능을 실질적으로 향상시킨다는 것을 보여줍니다. 구체적으로, Spreadsheet-RL은 SpreadsheetBench에서 Qwen3-4B-Thinking-2507의 Pass@1 성능을 12.0%에서 23.4%로 개선하였으며, 우리가 선별한 Domain-Spreadsheet 데이터셋에서는 Pass@1을 8.4%에서 17.2%로 높였습니다. 이러한 결과는 Spreadsheet-RL이 스프레드시트 자동화 분야에서 일반화 및 실제 도입에 있어 강력한 잠재력을 가지고 있음을 강조하며, 넓게는 일상적인 업무에서 데이터 인터페이스와 LLM 기반 상호작용을 발전시킬 가능성을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Spreadsheet-RL: 강화학습 (RL)을 통한 현실적인 스프레드시트 작업에서의 대규모 언어 모델 (LLM) 에이전트 성능 향상

요약

핵심 포인트

댓글