도구 호출(Tool Calling)은 언어 모델에서 선형적으로 읽고 조종 가능합니다
요약
본 연구는 다양한 대규모 언어 모델(LLM)을 대상으로 도구 호출(Tool Calling) 메커니즘을 분석하여, 선택된 도구의 정체성이 모델 내부 활성화 값에 선형적으로 인코딩되어 있음을 발견했습니다. 이는 단순히 프롬프트에서 도구 이름을 변경하는 것만으로도 높은 정확도로 모델이 다른 도구를 선택하도록 조종할 수 있음을 의미합니다. 또한, 이러한 내부 표현 차이를 활용하여 잠재적인 오류를 사전에 감지하고 플래그 지정하는 것도 가능함을 보여줍니다.
핵심 포인트
- 선택된 도구의 정체성은 LLM 내부 활성화 값에 선형적으로 인코딩되어 있어 조작이 용이합니다.
- 단일 턴 프롬프트에서 도구 이름 변경만으로도 높은 정확도로 모델의 도구 선택을 전환할 수 있습니다 (77-100%).
- 내부 표현 분석을 통해 도구 호출 과정에서 발생 가능한 잠재적 오류를 사전에 감지하고 플래그 지정하는 것이 가능합니다.
- 모델의 사전 학습(pretraining) 단계가 표현 형성 및 지침 조정(instruction tuning)이 출력 연결에 기여함을 시사합니다.
도구 호출 에이전트가 잘못된 도구를 선택할 경우, 실패는 실행될 때까지 눈에 띄지 않습니다. 이메일이 전송되거나 회의가 놓이는 식입니다. Gemma 3, Qwen 3, Qwen 2.5, Llama 3.1 (270M부터 27B) 등 12개의 명령어 미세 조정(instruction-tuned) 모델을 대상으로 프로빙한 결과, 선택된 도구의 정체성은 모델 내부에서 선형적으로 읽고 조종 가능함을 발견했습니다. 두 도구의 평균 내부 활성화 값 간의 차이를 추가하는 것만으로도 이름만 포함된 단일 턴 프롬프트(4B 이상에서는 93-100%)에서 모델이 선택하는 도구를 77-100% 정확도로 전환할 수 있으며, 그 뒤에 이어지는 JSON 인자들은 새로운 도구의 스키마와 자가회귀적으로 일치하므로 이름을 바꾸는 것만으로 충분합니다. 마찬가지로, 도구별 평균값은 오류가 발생하기 전에 잠재적인 오류를 플래그 지정하기도 합니다: Gemma 3 12B 및 27B에서, 간격이 벌어진 질의들은...
rs는 BFCL에서 69-82%에 달하는 반면, 기본 생성(base generation)은 단지 2-10%에 도달하여, 사전 학습(pretraining)이 표현을 형성하고 후속 지침 조정(instruction tuning)이 이를 출력에 연결하는 것으로 보입니다. 우리는 단일 턴 고정 메뉴 설정에서 도구 정체성 선택 및 JSON 스키마 정확도를 측정했습니다. 다중 턴 에이전트적 전이(multi-turn agentic transfer)는 더 취약하며, 이는 제한 사항(Limitations)에서 논의됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기