arXiv논문2026. 05. 25. 16:47

Long-Context LLM의 위치적 실패: 추론 벤치마크의 사각지대

요약

긴 문맥(Long-context) LLM의 추론 성능 평가 시 작업 위치 제어의 중요성을 지적합니다. 연구팀은 작업 위치, 채우기 내용, 문맥 길이를 제어하는 CRE 프레임워크를 통해 모델들이 작업 위치가 중간으로 이동할 때 성능이 급격히 하락함을 입증했습니다.

핵심 포인트

주요 추론 벤치마크는 작업 위치 제어 기능이 결여됨
작업 위치가 중간으로 이동 시 모델 성능이 급격히 저하됨
채우기 텍스트와 정답 간의 간섭이 주요 오류 원인임
CRE 프레임워크를 통한 위치적 취약성 측정 필요성 제기

Needle-in-a-Haystack 및 RULER와 같은 검색 (Retrieval) 작업에서는 위치 제어 평가 (Position-controlled evaluation)가 표준이지만, 주류 추론 (Reasoning) 벤치마크는 긴 문맥 (Long contexts) 내에서 대상 작업의 위치 배치를 제어하지 않습니다. 우리는 11개의 긴 문맥 벤치마크를 감사(Audit)하였으며, 추론을 위해 작업 위치, 채우기 내용 (Filler content), 문맥 길이 (Context length)를 공동으로 제어하는 벤치마크가 하나도 없음을 발견했습니다. 4개의 주요 긴 문맥 출시 모델들을 감사한 결과, NIAH, RULER 또는 LongBench 계열 벤치마크에 대한 주요 결과 테이블 항목이 없었으며, 반면 에이전트 (Agentic) 및 코딩 (Coding) 벤치마크는 4개 모델 모두의 주요 결과 테이블에 등장했습니다. 우리는 세 가지 요소를 모두 변화시키는 제어된 프레임워크인 Context Rot Evaluation (CRE)을 제안하며, 초기 5개 모델 세트와 이후 출시된 4개의 최신 벤더 모델을 포함하여 두 라운드에 걸쳐 GSM8K 및 ARC-Challenge에서 9개의 LLM을 평가했습니다. 모델들은 대상 작업이 끝에서 중간으로 이동할 때 성능이 급격히 하락할 수 있으며, 취약한 모델의 경우 문맥 길이에 따라 이러한 하락 폭이 더 커집니다. MiMo-v2-Flash는 with_solutions 채우기 조건의 64K 환경에서 88pp(퍼센트 포인트) 하락했습니다 (중간 위치 정확도 8%). 최신 출시 모델들은 더 적은 하락을 보였습니다: 64K에서 4개 중 3개가 끝 위치 정확도의 +/-6pp 범위 내에 머물렀으며, MiMo-V2.5-Pro는 MiMo-v2-Flash의 88pp 하락을 32pp로 줄였습니다. questions_only_v2 채우기 조건에서는 4개 모델 모두에서 중간 위치의 하락이 지속되었습니다 (8K, 32K, 64K에 걸쳐 -16pp에서 -56pp 범위). 8K에서 끝에 대상 작업의 복사본을 추가하는 진단 프로브 (Diagnostic probe)를 사용했을 때, 9개 모델 모두의 중간 위치 정확도가 끝 위치 기준점의 +/-4pp 이내로 들어왔으며, 이는 위치적 설명 (Positional explanation)과 일치합니다. 초기 5개 모델 세트에서 중간 위치 오류의 76%가 주변 채우기 텍스트와 일치한 반면, 끝 위치에서는 22%만이 일치했습니다. 이는 채우기-정답 간섭 (Filler-answer interference)이 지배적인 오류 모드라는 점과 일치합니다. 이러한 결과는 현재의 추론 벤치마크 설계 및 벤더 평가 관행에 구조적인 평가 격차가 있음을 드러냅니다: 작업 위치가 제어되지 않으면 문맥 길이에 따라 증가하는 위치적 취약성 (Positional vulnerabilities)을 측정할 수 없습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Long-Context LLM의 위치적 실패: 추론 벤치마크의 사각지대

요약

핵심 포인트

댓글