arXiv논문2026. 06. 15. 11:38

밀집 좌표 목록 미세 조정(Dense Coordinate-List Fine-Tuning)이 시각-언어 모델(Vision-Language

요약

시각-언어 모델(VLM)을 밀집 좌표 목록 출력 방식으로 미세 조정할 때 발생하는 구조적 출력 변화와 반복 문제를 연구합니다. Gemma 4 12B와 Qwen3-VL-8B를 통해 LoRA 어댑터 용량이 모델의 생성 및 제어 표면에 미치는 영향을 분석했습니다.

핵심 포인트

밀집 좌표 미세 조정 시 모델의 구조화된 출력 방식 변화 및 반복 현상 발생
Gemma 4 12B에서 고용량 LoRA 사용 시 시각적 접지 성능은 향상되나 중복 출력 유도
객체 수준의 반복-중단 기법을 통해 성능 저하 없이 중복 레코드 제거 가능
이러한 현상은 bbox-좌표 목록에 국한되며 다른 JSON 구조에는 영향을 주지 않음

시각-언어 모델(Vision-Language Models)이 밀집 좌표 목록(dense coordinate lists)을 출력하도록 미세 조정(Fine-tuning)하는 것은 시각적 접지(visual grounding) 성능을 향상시키지만, 모델이 구조화된 출력(structured outputs)을 직렬화(serialize), 반복(repeat), 종료(terminate)하는 방식 또한 변화시킵니다. 우리는 이러한 동작을 생성 및 제어 표면(generation and control surface)으로서 연구합니다. Gemma 4 12B에서 고용량 q/k/v/o LoRA는 클래스 인식 F1@0.3을 0.007에서 0.448로 높이는 동시에 반복적 꼬리 압박(repeated-tail pressure, 중복률 0.080, 최대 반복 23)을 유도합니다. q/v 랭크(rank) 스윕(sweep) 결과, 랭크 4-64 전반에 걸쳐 최대 반복 횟수가 21-22로 유지되어 용량 지속성(capacity persistence)을 보여줍니다. 타겟 신호는 분리 가능합니다: 객체 수준의 반복-중단(object-level repeat-stop)은 F1(0.494에서 0.490으로) 및 더 엄격한 F1@0.5(0.381에서 0.385로)를 보존하면서 정확히 반복된 레코드를 제거합니다(중복률 0.000, 최대 반복 1). 구조 축 프로브(Structure-axis probes)는 이 효과가 bbox-좌표 객체 목록에 국한됨을 국지화합니다; 밀집된 비-bbox(non-bbox) 및 공간/수량 JSON은 고용량 어댑터(adapters) 환경에서도 반복 없이 깨끗하게 유지됩니다. Qwen3-VL-8B는 깨끗하게 제어된 엔드포인트(clean controlled endpoint, F1@0.3 0.318, 중복률 0.000)를 재현하며, COCO 2017은 획득(acquisition)과 중복 압박(duplicate pressure)을 모두 재현합니다. 따라서 밀집 좌표 목록 적응(Dense coordinate-list adaptation)은 측정 및 제어가 가능한, 구조에 묶인(structure-bound) 교차 모델군 간섭 표면(cross-family interference surface)을 생성합니다.

AI 자동 생성 콘텐츠

원문 바로가기

밀집 좌표 목록 미세 조정(Dense Coordinate-List Fine-Tuning)이 시각-언어 모델(Vision-Language

요약

핵심 포인트

댓글