arXiv논문2026. 06. 15. 11:46

스프레드시트에서의 다음 동작 예측 평가를 위한 벤치마크 및 프레임워크

요약

스프레드시트 환경에서 사용자의 다음 동작을 예측하기 위한 새로운 벤치마크와 프레임워크를 제안합니다. LLM 정제 기술을 통해 12K개의 동작 시퀀스를 구축하고, 온라인 평가 방식을 통해 다양한 예측 모델의 성능을 분석합니다.

핵심 포인트

스프레드시트 자동 완성 기능을 위한 동작 예측 벤치마크 도입
LLM 정제를 활용한 12K 규모의 동작 시퀀스 데이터셋 구축
사용자 수락/거부 기반의 온라인 평가 프레임워크 제안
Zero-shot LLM 및 미세 조정된 SLM 등 다양한 베이스라인 분석

예측 코드 완성 (Predictive code completion)은 개발자의 작업 속도를 크게 가속화합니다. 스프레드시트의 경우, 훨씬 더 흔하게 사용됨에도 불구하고 이러한 자동 완성 (auto-completion) 기능은 사실상 존재하지 않습니다. 이러한 격차를 해소하기 위해, 우리는 스프레드시트에서 사용자의 동작 시퀀스를 관찰하고 미래의 동작을 예측하는 시스템을 위한 벤치마크를 소개합니다. 두 가지 과제는 (1) 공개된 스프레드시트 코퍼스 (corpora)에 편집 이력 (edit histories)이 없다는 점과 (2) 스프레드시트 동작의 복잡한 공간 (공간적, 시간적, 복합적)입니다. (1)을 해결하기 위해, 우리는 매개변수화된 휴리스틱 (heuristics)과 LLM 정제 (refinement)를 기반으로 하여, 공개 코퍼스로부터 스프레드시트를 재현하는 12K개의 동작이 포함된 52개의 시퀀스를 수동으로 큐레이션했습니다. (2)를 해결하기 위해, 우리는 각 사용자 동작 후에 예측을 기대하고, 해당 예측을 수락하거나 거부하며, 수락 시 미래의 동작을 업데이트하고, 목표 스프레드시트를 얻을 때까지 이를 반복하는 온라인 평가 (online evaluation) 방식을 제안합니다. 우리는 여러 베이스라인 예측기 (zero-shot LLM, 미세 조정된 (fine-tuned) SLM, 그리고 전통적인 모델 포함)를 사용하며, 저장된 동작 및 허위 양성 (false positives)의 특성, 효율성, 사용자 프로필의 영향, 트리거 (triggers)의 영향, 그리고 컨텍스트 (context)의 영향을 포함하되 이에 국한되지 않는, 우리 벤치마크가 가르쳐 주는 다양한 속성들을 분석합니다.

AI 자동 생성 콘텐츠

원문 바로가기

스프레드시트에서의 다음 동작 예측 평가를 위한 벤치마크 및 프레임워크

요약

핵심 포인트

댓글