arXiv논문2026. 06. 11. 18:32

범주형 사전 고착(Categorical Prior Lock-in): 구조화된 데이터에 대한 인컨텍스트 학습의 한계

요약

LLMs는 구조화된 데이터 생성에 인컨텍스트 학습(ICL)을 많이 사용하지만, 고카디널리티 테이블형 데이터의 조건부 생성에는 한계가 있습니다. 본 연구는 ICL이 사전 학습 분포를 업데이트하지 못해 발생하는 '범주형 사전 고착'이라는 구조적 실패 모드를 식별했습니다. 이 현상은 희귀 클래스 재현에 어려움을 주며, LoRA 같은 파라미터 효율적 미세 조정도 근본적인 상충 관계를 가집니다.

핵심 포인트

LLMs는 ICL을 통해 구조화된 데이터 생성에 활용되지만 한계가 있다.
'범주형 사전 고착'은 ICL의 주요 실패 모드로, 희귀 클래스 재현이 어렵다.
LoRA 같은 PEFT 기법은 한계를 극복하나, 기억 위험과 불안정성을 야기한다.

대규모 언어 모델(LLMs)은 파라미터 업데이트 없이도 새로운 분포에 적응하기 위해 인컨텍스트 학습(ICL)에 의존하여 구조화된 데이터의 조건부 생성기로 점점 더 많이 사용되고 있습니다. 우리는 고카디널리티 테이블형 데이터를 통제된 테스트 케이스로 사용하여, 분포 불일치 하에서 구조적 생성을 위한 ICL의 한계를 조사하고, extit{범주형 사전 고착(categorical prior lock-in)}이라는 구조적 실패 모드를 식별했습니다. 이는 ICL이 사전 학습으로부터 상속받은 토큰 분포에 대한 모델의 사전을 업데이트할 수 없는 능력입니다. 두 개의 7B 파라미터 오픈 웨이트 모델을 통해, ICL은 추가 예시와 함께 수치적 충실도를 향상시키지만, 범주형 분포에서는 급격한 천장을 보이며 희귀 클래스를 완전히 재현하는 데 실패합니다. 파라미터 효율적 미세 조정(LoRA)은 이러한 한계를 극복하지만 측정 가능한 기억 위험을 도입하고, 경우에 따라 구조화된 출력 생성을 불안정하게 만들며, 적응성과 프라이버시 사이의 근본적인 상충 관계를 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

범주형 사전 고착(Categorical Prior Lock-in): 구조화된 데이터에 대한 인컨텍스트 학습의 한계

요약

핵심 포인트

댓글