본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 27. 11:33

보편적인 절벽과 설계 지문: LLM 오케스트레이션 하에서의 교차 섹션 결함 탐지

요약

LLM 오케스트레이션 환경에서 에이전트들이 요청을 분할 처리할 때 발생하는 '교차 섹션 결함' 탐지 능력이 급격히 저하되는 현상을 연구했습니다. 모델의 규모 확장이나 추론 능력 강화로도 해결되지 않는 구조적 절벽과 정렬(Alignment) 방식에 따른 허위 경보 발생 패턴을 분석했습니다.

핵심 포인트

  • 오케스트레이션 시 교차 섹션 결함 탐지율이 2/3 이상 급락하는 '보편적 탐지 절벽' 발견
  • 모델 규모 확장 및 확장된 추론(Extended reasoning)으로도 해결 불가능한 구조적 문제
  • 정렬(Alignment) 강화 시 결함 탐지는 늘지만 허위 경보(False alarms)가 증가하는 트레이드오프 발생
  • 자동화된 판정기(Automated judge)의 낮은 정밀도와 신뢰성 한계 지적

상용 언어 모델 (Language-model) 시스템은 요청을 하나의 통합된 보고서로 재구성하는 보이지 않는 워커 에이전트 (Worker agents)의 오케스트레이션 (Orchestration)을 통해 요청을 분할하여 응답합니다. 우리는 이것이 단일 워커는 볼 수 없는 부류의 결함, 즉 문서의 멀리 떨어진 두 섹션 사이의 관계에서 발생하는 모순에 어떤 영향을 미치는지 질문합니다. 문서, 결함, 메커니즘, 점수 산정 및 시드 (Seed)를 고정한 상태에서, 우리는 모델만을 변경했습니다. 한 개발사의 5개 세대에 걸친 10개 시스템과 서로 다른 정렬 (Alignment) 패러다임을 가진 5개 제공사의 시스템을 대상으로 했습니다. 두 가지 층위가 분리되어 나타납니다. 첫째, 보편적인 탐지 절벽 (Universal detection cliff)입니다. 단일 에이전트 하에서 이러한 교차 섹션 결함을 찾아내는 모든 모델은 오케스트레이션 하에서 그 능력을 상실하며, 테스트된 모든 패러다임에서 탐지율이 3분의 2 이상 급락합니다. 이 절벽은 메커니즘에서 기인하며 규모 (Scale) 확장이나 확장된 추론 (Extended reasoning)으로도 해결되지 않습니다. 둘째, 절벽 아래로 떨어진 후 모델이 어떻게 행동하는가입니다. 신호 탐지 분해 (Signal-detection decomposition) 결과, 우연 확률 이상으로 구별해내는 6개 모델 중 단 한 개발사의 세대들만이 보고 기준 (Reporting-criterion) 축을 따라 이동함을 보여줍니다. 즉, 정렬 (Alignment)이 강화됨에 따라 모델은 결함을 더 적게 놓치지만, 깨끗한 문서에 대해 더 많은 허위 경보 (False alarms)를 발생시킵니다. 이는 하나의 기준 변화가 가진 두 얼굴이며, 해당 개발사 내의 세대 발전에 따라 규모가 커지지만 (p < 0.001) 다른 곳에서는 거의 나타나지 않습니다. 최저점(Floor)에서 놓친 결함은 종종 시야 밖에 있는 것이 아닙니다. 모델의 내부 기록은 구조적 결함을 정확하게 재구성하지만, 통합 보고서는 그 건전성을 승인하며, 모델의 관심은 아티팩트 (Artifact)와 부재하는 협업자에게만 쏠려 있습니다. 이는 정량화하기 어렵습니다. 자동화된 판정기 (Automated judge)는 불안정하며 (정밀도 17-50%), 키워드만으로는 이를 일반적인 동의와 분리할 수 없습니다. 우리는 이러한 저항성을 하나의 발견으로 보고합니다. 우리는 모든 실행 결과, 프로브 (Probes), 결함 키 (Defect keys), 점수 산정 프롬프트 (Scorer prompts) 및 스크립트를 공개합니다. 통합 보고서의 신뢰도는 분할을 가로지르는 결함에 대해 유익한 정보를 제공하지 못하며, 가장 잘 정렬된 시스템이 가장 안전한 것도 아니며, 이 절벽은 구조적입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0