PruneTIR: 효과적이면서도 효율적인 추론 시간 도구 호출 가지치기 (Pruning)를 통한 도구 통합 추론
요약
PruneTIR은 대규모 언어 모델(LLMs)이 외부 도구를 사용하는 과정에서 발생하는 오류가 있는 도구 호출의 부정적인 영향을 완화하고 추론 능력을 향상시키기 위해 제안된 프레임워크입니다. 이 방법은 추가 훈련 없이 LLM의 추론 시간(inference time)에 적용되어, 성공 기반 가지치기, 막힘/재샘플링 기반 가지치기, 재시도 기반 도구 일시 중지 등 세 가지 구성 요소를 통해 모델이 비효율적인 실패 시도에 빠지는 것을 방지합니다. 광범위한 실험 결과는 PruneTIR이 LLM의 성능을 크게 향상시키고 효율성을 높이는 동시에 컨텍스트 길이를 줄임을 입증했습니다.
핵심 포인트
- PruneTIR은 도구 통합 추론(TIR) 능력을 추가 훈련 없이 추론 시간(inference time)에 개선하는 프레임워크입니다.
- LLM의 오류가 있는 도구 호출은 답변 정확도와 음의 상관관계를 가지며, 이러한 실패는 비효율적인 후속 턴을 유발합니다.
- PruneTIR은 성공 기반 가지치기(Success-Triggered Pruning), 막힘/재샘플링 기반 가지치기(Stuck-Triggered Pruning and Resampling), 재시도 기반 도구 일시 중지(Retry-Triggered Tool Suspension) 세 가지 메커니즘을 사용합니다.
- 이 프레임워크는 LLM의 전반적인 성능을 향상시키고, 작업 컨텍스트 길이(working context length)를 줄여 효율성을 높입니다.
도구 통합 추론(Tool-integrated reasoning, TIR)은 대규모 언어 모델(LLMs)이 코드 인터프리터(CI)와 같은 외부 도구와 상호 작용함으로써 자체 능력을 향상시킬 수 있게 합니다. 최근 연구들은 LLMs에 다양한 도구를 사용할 수 있는 능력을 부여하는 여러 방법을 탐구하는 데 초점을 맞추고 있습니다. 하지만 이미 도구 사용이 가능한 LLMs의 추론 시간(inference time)에서의 추론 능력 향상 방법은 아직 충분히 탐구되지 않은 영역입니다. 추론 시간에 추론 능력을 개선하려면 추가적인 훈련이 필요하지 않으며, LLMs가 문제를 해결하기 위해 도구를 더 잘 활용하도록 도울 수 있습니다. 우리는 도구 사용이 가능한 LLM의 추론 과정에서 오류가 있는 도구 호출의 수와 비율 모두가 답변 정확도와 음의 상관관계를 가진다는 것을 관찰했습니다. 게다가, 오류가 있는 도구 호출은 일반적으로 몇 번의 후속 턴(turns) 내에서 성공적으로 해결됩니다. 그렇지 않은 경우, LLMs는 많은 추가 턴이 주어져도 그러한 오류를 해결하는 데 어려움을 겪는 경우가 많습니다. 위와 같은 관찰을 바탕으로, 우리는 추론 시간에 도구 통합 추론 능력을 향상시키는 효과적이면서도 효율적인 프레임워크인 PruneTIR을 제안합니다. LLM 추론 과정에서 PruneTIR은 세 가지 구성 요소—성공 기반 가지치기(Success-Triggered Pruning), 막힘 기반 가지치기 및 재샘플링(Stuck-Triggered Pruning and Resampling), 그리고 재시도 기반 도구 일시 중지(Retry-Triggered Tool Suspension)—를 통해 궤적을 가지치기하고, 도구 호출을 재샘플링하며, 도구 사용을 일시 중지합니다. 이 세 가지 구성 요소는 PruneTIR이 오류가 있는 도구 호출의 부정적인 영향을 완화하고 LLMs가 반복된 실패한 해결 시도에 빠지는 것을 방지하여 전반적인 LLM 성능을 향상시키도록 합니다.
광범위한 실험 결과는 PruneTIR의 효과를 입증하며, 이는 도구 사용이 가능한 LLM의 Pass@1과 효율성을 크게 향상시키는 동시에 작업 컨텍스트 길이(working context length)를 줄여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기