LLM 모니터를 훈련하는 데 있어 교차 도메인 일반화 (Cross-Domain Generalization)는 얼마나 유용한가?
요약
본 연구는 프롬프트된 언어 모델(Prompted Language Models)을 분류기로 사용하는 것이 제한적인 데이터 도메인에서 분류를 가능하게 하지만, 미세 조정(Fine-tuning)의 이점을 일부 놓친다고 지적합니다. 여러 분류 작업에 대해 훈련하는 것이 새로운 도메인에서의 성능 향상을 가져오며, 이는 인접한 도메인으로 부분적으로 일반화됨을 보여줍니다. 또한, 모델이 프롬프트를 따르지 못하는 에지 케이스를 식별하고, 일반적인 지시 이행 훈련과 분류 훈련을 혼합하여 이러한 일반화 실패를 완화할 수 있음을 제안합니다.
핵심 포인트
- 여러 분류 작업에 대한 훈련은 새로운 도메인(인접한 도메인)에서의 성능 향상을 가져와 부분적 일반화를 가능하게 한다.
- 미세 조정된 모델이 프롬프트를 따르지 못하는 특정 에지 케이스를 식별할 수 있다.
- 분류 훈련을 일반적인 지시 이행 훈련과 혼합하면, 분류의 장점을 유지하면서 일반화 실패를 완화할 수 있다.
- ‘생각 없는(No-thinking)’ 지도 분류 훈련이 ‘생각이 있는(With-thinking)’ 요약 등 다른 종류의 작업으로도 일반화될 수 있음을 확인했다.
프롬프트가 입력된 언어 모델 (Prompted Language Models)을 분류기 (Classifiers)로 사용하는 것은 훈련 데이터가 제한적인 도메인에서도 분류를 가능하게 하지만, 미세 조정 (Fine-tuning)이 가져올 수 있는 견고성 (Robustness)과 성능 이점의 일부를 놓치게 됩니다. 우리는 각각 고유한 프롬프트를 가진 여러 분류 작업 (Classification Tasks)에 대해 훈련하는 것이, 새로운 분류 프롬프트가 있는 새로운 도메인에서의 성능을 향상시키는지 연구합니다. 우리는 이러한 훈련이 인접한 도메인으로 부분적으로 일반화되어, 훈련 중에 보지 못한 작업에 대한 분류 성능을 향상시킨다는 것을 보여줍니다. 그러나 우리는 데이터 도메인은 훈련 시와 동일하게 유지되면서 분류 프롬프트가 완전히 바뀌는 경우와 같이, 미세 조정된 모델이 프롬프트를 따르지 못하는 특정 에지 케이스 (Edge Cases)를 식별합니다. 우리는 분류 훈련 (Classification Training)을 일반적인 지시 이행 훈련 (Instruction Following Training)과 혼합할 수 있으며, (잘 수행될 경우) 이러한 훈련이 분류 훈련의 이점을 유지하면서 일반화 실패를 완화한다는 것을 보여줍니다. 놀랍게도, 우리는 이러한 '생각 없는 (No-thinking)' 지도 분류 훈련이 '생각이 있는 (With-thinking)' 분류 및 요약 (Summarization)으로 일반화될 수 있음을 확인하였으며, 이는 '생각 없는' 분류 훈련이 다른 종류의 분류기 및 모니터링 시스템을 구축하는 데 도구적으로 유용할 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기