격차를 주의하라: 프론티어 LLM이 표준화된 사무 숙련도 시험을 통과할 수 있는가?
요약
사무 자동화 능력을 평가하기 위해 중국 국가 컴퓨터 등급 시험(NCRE) 기반의 새로운 벤치마크를 도입했습니다. 7개의 프론티어 LLM을 테스트한 결과, 에이전트 시스템을 활용하더라도 실제 전문가 수준의 점수에는 미치지 못하는 한계를 확인했습니다.
핵심 포인트
- 사무 자동화를 위한 새로운 벤치마크 도입
- 장기 계획 및 다중 애플리케이션 통합 능력 검증
- 에이전트 시스템 도입 시 성능이 68.8%까지 향상됨
- 현재 LLM의 미세한 사무 문서 자동화 능력은 여전히 부족함
컴퓨터 자동화를 위한 대규모 언어 모델 (LLM) 에이전트의 배포가 가속화되고 있지만, 복잡하고 전문적인 수준의 생산성 소프트웨어를 탐색하는 능력은 아직 충분히 검증되지 않았습니다. 우리는 사무 자동화 (Office automation)가 문서 자동화 능력을 벤치마킹하기 위한 이상적인 환경이라고 주장합니다. 왜냐하면 이는 장기적 계획 (long-horizon planning) 및 추론 (reasoning), 정밀한 파라미터 설정 (parameter configuration), 그리고 다중 애플리케이션 통합 (multi-application integration)을 요구하기 때문입니다. 이 능력을 정량화하기 위해, 우리는 Word, Excel, PowerPoint에 걸친 200개의 종합적인 실무 운영 과제를 특징으로 하는 중국의 국가 컴퓨터 등급 시험 (NCRE)에 기반한 평가를 도입합니다. 각 과제는 7,118개의 기계 채점 가능 기준을 사용하여 100점 척도의 루브릭 (rubric) 규모로 점수가 매겨지며, 점수율 (Score Rate, SR)은 이러한 과제 전반에서 획득한 루브릭 점수의 평균 백분율을 나타냅니다. 우리는 7개의 프론티어 (frontier) LLM을 벤치마킹하였으며 극명한 한계를 관찰했습니다: 단일 턴 (single-turn) 모델은 최대 36.6%의 점수를 기록했습니다. 실행 피드백 (execution feedback), 반복적 수정 (iterative repair), 그리고 더 넓은 사무 자동화 접근 권한을 가진 더 강력한 에이전트 시스템 (agentic system)은 68.8%에 도달했지만, 점수 산정의 건전성 검사 (sanity check)로 사용되는 커뮤니티 참조 점수인 95.5%에는 여전히 미치지 못했습니다. 궁극적으로, 우리의 실험은 최근의 코드 생성 (code generation) 발전에도 불구하고, 신뢰할 수 있는 미세한 수준의 사무 문서 자동화를 달성하는 것이 현재의 코드 생성 LLM 및 에이전트 시스템에게 여전히 중대한 과제로 남아 있음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기