LLM은 자신의 제공자를 선호하는가? 코드 생성에서의 수직적 통합 편향 (Vertical Integration Bias) 측정
요약
LLM이 코드 생성 시 특정 제공자의 생태계를 선호하는 '수직적 통합 편향(VIB)'을 정의하고 이를 측정하는 벤치마크인 VIBench를 제안합니다. 연구 결과, 직접 생성보다 에이전트 워크플로우에서 이러한 편향이 훨씬 더 크게 증폭됨을 확인했습니다.
핵심 포인트
- 수직적 통합 편향(VIB) 개념 정의 및 VIBench 벤치마크 소개
- 에이전트 워크플로우가 직접 생성보다 VIB를 더 크게 증폭시킴
- 초기 생태계 선택이 다운스트림 파일까지 지속되는 높은 상관관계 확인
- LLM 에이전트 활용 시 제공자 편향에 대한 고려 필요성 강조
대규모 언어 모델 (LLMs)은 특히 에이전트 기능 (agentic capabilities)의 등장과 함께 소프트웨어 개발의 필수적인 부분이 되었습니다. 그러나 많은 최첨단 LLM들은 특정 제공자 (providers)와 연계되어 있습니다. 이는 생성된 코드가 유사한 대안보다 제공자 자신의 생태계를 선호하여, 잠재적으로 개발자의 선택을 제한하고 단일 제공자에 대한 의존도를 높이는지라는 의문을 제기합니다. 우리는 이러한 동작을 수직적 통합 편향 (Vertical Integration Bias, VIB)으로 정의하고, 20개의 제공자 선택형 소프트웨어 통합 시나리오에 걸쳐 직접적 및 에이전트 방식의 코드 생성에서 VIB를 측정하기 위한 벤치마크인 \textsc{VIBench}를 소개합니다. 10개의 최첨단 제공자 연계 모델을 3개의 비연계 대조군과 비교 평가한 결과, 직접 생성 (direct generation)에서 양(+)의 VIB가 발견되었으며, 연계된 10개 모델 중 6개 모델이 최대 +18.8 퍼센트 포인트 (pp)까지 통계적으로 유의미한 효과를 보였습니다. 에이전트 워크플로우 (Agentic workflows)는 VIB를 더욱 증폭시켜 +39.2 pp에 달했습니다. 더욱이, 에이전트 워크플로우에서의 초기 연계 생태계 선택은 개념적으로 분리된 다운스트림 파일 (downstream files)까지 지속될 수 있으며, 그 지속성은 90.3%만큼 높았습니다. 이러한 발견은 특히 에이전트 기능이 더욱 보편화됨에 따라 코드 생성에서 VIB를 측정하고 고려해야 할 필요성을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기