LLM 도구 사용을 위한 적응형 추론 및 실행의 사례 기반 보정 (Case-Based Calibration of Adaptive

도구 사용 (Tool use)은 대규모 언어 모델 (LLM)의 능력을 파라미터 지식 (parametric knowledge) 너머로 확장하지만, 신뢰할 수 있는 실행을 위해서는 적절한 추론 깊이 (reasoning depth)와 엄격한 구조적 유효성 (structural validity) 사이의 균형을 맞추는 것이 필요합니다. 우리는 이 문제를 사례 기반 (case-based) 관점에서 접근하여, 과거의 실행 궤적 (execution trajectories)을 구조화된 사례로 취급하는 사례 주도형 프레임워크인 CAST를 제시합니다. CAST는 가공되지 않은 예시 출력 (raw exemplar outputs)을 재사용하는 대신, 최적의 추론 전략을 추정하기 위한 복잡성 프로필 (complexity profiles)과 발생 가능한 구조적 붕괴를 매핑하기 위한 실패 프로필 (failure profiles)을 식별하기 위해 사례 유도 신호 (case-derived signals)를 추출합니다. 이 프레임워크는 이러한 지식을 세밀한 보상 설계 (reward design) 및 적응형 추론 (adaptive reasoning)으로 변환하여, 모델이 강화 학습 (reinforcement learning) 과정에서 사례 기반 전략을 자율적으로 내재화할 수 있도록 합니다. BFCLv2 및 ToolBench에 대한 실험 결과, CAST는 불필요한 숙고 (deliberation)를 줄이면서 스키마 충실 실행 (schema-faithful execution)과 태스크 수준의 도구 사용 성공률을 모두 향상시키는 것으로 나타났습니다. 이 접근 방식은 전체 실행 정확도에서 최대 5.85%포인트의 이득을 달성하고 평균 추론 길이를 26% 감소시켜, 영향력이 큰 구조적 오류를 크게 완화합니다. 궁극적으로 이는 과거의 실행 사례가 보정된 도구 사용을 위한 재사용 가능한 적응 지식 (adaptation knowledge)을 어떻게 제공할 수 있는지를 보여줍니다.

Insights

LLM 도구 사용을 위한 적응형 추론 및 실행의 사례 기반 보정 (Case-Based Calibration of Adaptive

요약

핵심 포인트

댓글

아프리카, 글로벌 맥주 생산량 감소 추세 거스르다

OpenAI, 계획된 AI 인프라 지출을 7,500억 달러로 상향

Supermicro, 더 높은 마진과 기록적인 주문을 시사하는 4분기 예비 실적 발표 후 주가 급등

CoreWeave 상향, IBM 신규 분석: 월스트리트 최고 애널리스트들의 의견

OpenAI, 계획된 AI 인프라 지출을 7,500억 달러로 상향

Supermicro, 더 높은 마진과 기록적인 주문을 시사하는 4분기 예비 실적 발표 후 주가 급등

CoreWeave 상향, IBM 신규 분석: 월스트리트 최고 애널리스트들의 의견