반복적인 LLM 루프의 교란 용량 반응: 원시 스위칭, 확률적 바닥선, 그리고 Append, Replace, Dialog 업데이트 하에서의
요약
본 연구는 반복적인 LLM 루프에서 모델이 특정 패턴에 수렴하는 현상을 분석하고, 이 루프를 다른 곳으로 이동시키기 위해 필요한 교란(disruption)의 양과 지속성을 탐구합니다. 30단계의 반복적 루프 환경에서 Append, Replace, Dialog 업데이트 규칙을 분리하여 테스트한 결과, 컨텍스트 길이와 업데이트 방식에 따라 모델이 원래 패턴에서 벗어나거나 새로운 목적지로 일관되게 이동하는 정도가 다름을 보여줍니다. 특히 전체 역사 프로토콜 하에서는 1,500 토큰 근처에서 탈출 성공률이 높아지는 등, 메모리 정책과 컨텍스트 관리 전략의 중요성을 강조합니다.
핵심 포인트
- LLM은 반복적인 루프 패턴에 수렴하는 경향을 보이며, 이 패턴을 깨기 위해서는 충분한 양의 교란 텍스트가 필요하다.
- 컨텍스트 업데이트 규칙(Append, Replace, Dialog)과 메모리 정책은 모델이 루프를 벗어나거나 새로운 정보로 일관되게 이동할 수 있는 능력을 결정하는 핵심 요소이다.
- 전체 역사 프로토콜 하에서는 컨텍스트가 1,500 토큰 근처에 도달했을 때 원래 패턴에서 탈출하거나 목적지 일관성을 유지하는 성공률이 가장 높게 나타난다.
- 단순한 교란(disruption)만으로는 충분하지 않으며, 반복적 루프의 평가 시에는 확률적 바닥선(probabilistic baseline)을 차감하고 컨텍스트 업데이트 규칙을 고려해야 한다.
반복적인 언어 모델 루프는 종종 인식 가능한 끌개와 같은 패턴으로 수렴합니다. 실용적인 질문은 설정된 루프를 다른 곳으로 이동시키기 위해 주입된 텍스트의 양이 얼마나 필요한지, 그리고 그 이동이 지속되는지는 여부입니다. 우리는 30 단계의 반복적 루프에서 모델과 컨텍스트 업데이트 규칙 (Append, Replace, Dialog 업데이트) 을 분리하여 이 현상을 연구했습니다. 동일한 생성기에 서로 다른 역사가 노출됩니다. 주요 결과는 Append 모드 반복적 루프에서 지속적 리디렉션은 메모리 정책 조건에 의해 결정된다는 것입니다. 12,000 자의 Tail Clip 하에서 목적지 일관성 지속성은 용량 400 에서 약 16 퍼센트, 원본 수조 탈출은 약 36 퍼센트에 도달하며 어느 것도 50 퍼센트를 넘지 않습니다. 전체 역사 프로토콜 하에서는 원본 수조 탈출이 약 400 토큰 근처에서 50 퍼센트를 넘어선 후 1,500 토큰까지 75-80 퍼센트까지 포화되며, 목적지 일관성 지속성은 Wilson 95 퍼센트 신뢰구간 [0.41, 0.61] 을 가지며 약 1,500 토큰 근처에서 0.50 에 도달합니다. 원시 스위칭 (Raw Switching) 에서 적대적 연속은 ED50 이 약 40 토큰에 도달하며, 짝제어 바닥선은 약 35 퍼센트이며 순차 전환은 5-400 토큰 내에서 +50 퍼센트 포인트까지 도달하지 못합니다. Replace 모드 원시 스위칭은 거의 포화 상태이나 대부분 상태 리셋 오버라이트를 반영하며, Insert 모드 프로브는 이를 12-32 퍼센트로 낮춥니다. 균일 교란 제어가 목적지 일관성 지속성의 고 용량 비단조적 하강을 재현하여 교란 이질성을 원인으로 반박했습니다. 이 하강은 구조적이며 기전은 아직 해결되지 않았습니다. 우리는 gpt-4o-mini 에서 37 개의 실험을 보고하고, gpt-4.1-nano 에서 벤더 내 복제를 수행했습니다. 반복적 루프 평가는 일시적인 이동과 지속적인 탈출을 구별하고, 확률적 바닥선을 차감하며, 컨텍스트 업데이트 규칙을 안전 관련 설계 선택의 1 차 요소로 취급해야 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기