CAVEWOMAN: 언어적 입력 및 출력 압축 시 대규모 언어 모델(LLM)의 동작 방식
요약
LLM의 입력 및 출력 압축이 추론 비용과 정확도에 미치는 영향을 분석한 연구입니다. 출력 압축은 비용을 절감하지만, 입력 압축은 정확도 저하와 응답 길이 증가로 인해 오히려 비용을 높이는 결과를 초래함을 밝혀냈습니다.
핵심 포인트
- 출력 압축은 API 및 오픈 웨이트 모델의 실현 비용을 절감함
- 입력 압축은 정확도 붕괴와 응답 길이 증가로 인해 비용을 오히려 상승시킴
- 비추론 모델의 경우 압축된 결과가 원래의 의미를 유지하지 못하는 경향이 있음
- Cavewoman이라는 이중 채널 평가 프로토콜을 통해 비용과 정확도를 정밀 측정함
"짧게 말해. 문법은 버려. 토큰을 아껴." 이러한 원시인(caveman) 스타일은 추론 비용 (inference cost)을 절감하는 방법으로 널리 권장되지만, 실제로 비용이 절감되는지 여부는 어떤 채널(사용자의 프롬프트 또는 모델의 응답)이 압축되느냐에 따라 달라집니다. 우리는 모든 생성 결과에 대해 작업 정확도 (task accuracy), 항목당 실현 비용 (realized per-item cost), 그리고 모델의 제약 없는 참조 텍스트 (unconstrained reference) 대비 참조 텍스트 일치도를 점수화하는 이중 채널 평가 프로토콜인 Cavewoman을 제시합니다. 우리는 5개의 데이터셋에서 5가지 축소 수준에 따라 8개의 모델을 평가하였으며, 두 채널 모두 동일한 항목에 대해 측정되었습니다. 출력 압축 (Output compression)은 대부분의 API 모델(모델당 1.4~2.4배, 최선의 경우 최대 3배)과 공개 티어 가격 정책 하의 4개 오픈 웨이트 (open-weight) 모델 모두에서 실현 비용을 절감합니다. 입력 압축 (Input compression)은 반대의 효과를 나타내며, 엄격한 패배-패배 (lose-lose) 상황을 초래합니다. 즉, 정확도가 붕괴됨에도 불구하고 모델이 더 긴 응답으로 보완하기 때문에 순 비용을 낮추는 대신 오히려 높입니다 (5개 벤치마크 평균 약 1.15배, 최악의 데이터셋에서 최대 1.8배, 더 강력한 압축 시 최대 2.7배). 동일한 설정 하에서 표면 텍스트 (surface text)는 제약 없는 참조 텍스트와 일치하지 않습니다. 비추론 모델 (non-reasoning models)의 경우, 생성된 결과의 약 절반은 정답임에도 불구하고 그 표면 텍스트가 모델 자체의 제약 없는 베이스라인 생성물과 더 이상 함의 관계를 갖지 않습니다. 이러한 괴리는 길이 제어 재점수화 (length-controlled re-scoring), 다중 비교 교정 (multiple-comparisons correction), 그리고 상호 보완적인 의미론적 척도 (semantic measures)를 통한 재현 실험 후에도 유지됩니다. 코드와 데이터는 https://github.com/danielle34/cavewoman 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기