본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 28. 02:11

계층적 주행 VQA에서의 교차 단계 일관성: 명시적 베이스라인과 학습된 게이트드 컨텍스트 프로젝터

요약

본 논문은 자율주행 그래프 시각 질문 답변(GVQA)에서 인지-예측-계획 단계 간의 컨텍스트 일관성을 확보하는 두 가지 상보적인 방법을 비교 연구합니다. 첫 번째 방법인 명시적 베이스라인은 추가 학습 없이 프롬프트 기반 조건화 전략을 사용하여 NLI 모순을 크게 줄이는 강력한 무학습 성능을 보여줍니다. 두 번째 방법인 게이트드 컨텍스트 프로젝터는 숨겨진 상태 벡터를 다음 단계 입력에 정규화된 방식으로 주입하여 계획 단계의 의미적 일관성을 통계적으로 유의미하게 개선합니다.

핵심 포인트

  • 자율주행 GVQA에서 인지-예측-계획 단계 간 컨텍스트 전달이 중요하며, 모델은 이 과정에서 높은 수준의 일관성을 유지해야 한다.
  • 명시적 조건화 전략(프롬프트 기반)은 추가 학습 없이도 NLI 모순을 줄이는 강력한 무학습 베이스라인을 제공한다.
  • 게이트드 컨텍스트 프로젝터는 단계별 숨겨진 상태를 추출하고 다음 단계에 정규화하여 주입함으로써 계획의 의미적 일관성을 크게 향상시킨다.
  • 두 방법은 상보적이며, 명시적 방식이 표면적 일관성에 강점을 보인다면, 게이트드 프로젝션은 깊은 의미적 개선을 제공한다.

자율주행용 그래프 시각 질문 답변 (GVQA) 은 추론을 인지 (Perception), 예측 (Prediction), 계획 (Planning) 순서로 나열된 단계로 조직화하며, 계획 결정은 모델의 자체 인지와 일관되어야 합니다. 우리는 DriveLM-nuScenes 에서 두 가지 상보적 메커니즘을 통해 교차 단계 컨텍스트 전달에 대한 비교 연구를 제시합니다. 명시적 변형은 추가 학습 없이 도메인 적응된 4B VLM (Mini-InternVL2-4B-DA-DriveLM) 에서 프롬프트 기반 조건화 전략 세 가지를 평가하여 NLI 모순을 최대 42.6% 줄이고 강력한 무학습 베이스라인을 확립합니다. 암묵적 변형은 한 단계에서 숨겨진 상태 벡터를 추출하고 다음 단계의 입력 임베딩에 정규화된 게이트드 프로젝션을 주입하는 게이트드 컨텍스트 프로젝터를 도입합니다. 이러한 프로젝터는 일반적인 목적 8B VLM (InternVL3-8B-Instruct) 에서 단계별 QLoRA 어댑터와 함께 공동으로 학습되지만 약 0.5% 의 파라미터만 업데이트됩니다. 암묵적 변형은 다국어 NLI 분류기를 사용하여 혼합 언어 출력을 고려할 때 계획 단계의 NLI 모순을 통계적으로 유의미하게 34% 줄이고 (bootstrap 95% CIs, p < 0.05) 교차 단계 함축성을 50% 증가시킵니다. 계획 언어 품질도 개선되지만 (CIDEr +30.3%), 주행 도메인 사전 학습의 부재로 인해 어휘 중복과 구조적 일관성은 저하됩니다. 두 변형이 다른 베이스 모델을 사용하기 때문에 우리는 이를 상보적인 사례 연구로 제시합니다: 명시적 컨텍스트 전달은 표면적 일관성을 위한 강력한 무학습 베이스라인을 제공하고, 암묵적 게이트드 프로젝션은 계획 단계의 의미적 이점을 크게 제공하여 전 스펙트럼 개선을 위한 다음 구성 요소로서 도메인 적응이 타당함을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0