arXiv논문2026. 06. 11. 12:24

어떤 모델들이 우리의 모델을 기반으로 하는가? 현대 LLM의 보이지 않는 의존성 감사

요약

본 논문은 현대 LLM 학습 파이프라인의 복잡하고 재귀적인 의존성 구조 문제를 다룹니다. 연구진은 ModSleuth라는 에이전트 시스템을 개발하여, 소스 기반 증거를 통해 공개 아티팩트 전반에 걸친 LLM 의존성 그래프를 재구성하는 방법을 제시했습니다. 이를 통해 대규모 모델 생태계의 투명한 분석과 잠재적 문제를 발견할 수 있습니다.

핵심 포인트

ModSleuth는 소스 기반 증거로 LLM 의존성 그래프를 재귀적으로 구축합니다.
LLM 개발은 복잡하고 파편화된 아티팩트 전반에 걸쳐 의존성을 가집니다.
의존성 분석을 통해 라이선스, 학습-평가 결합 등 다양한 문제를 발견했습니다.
이 연구는 현대 LLM 생태계의 투명한 이해를 돕습니다.

현대 LLM(Large Language Model) 학습 파이프라인은 데이터 생성, 코퍼스 필터링, 출력 판단 및 개발 결정 지침 등을 위해 다른 모델에 점점 더 의존하고 있습니다. 이러한 의존성은 재귀적입니다: 하나의 모델은 상위 아티팩트(upstream artifact)에 의존할 수 있으며, 이 상위 아티팩트의 의존성 자체는 별도의 릴리스와 아티팩트에만 문서화되어 있을 수 있습니다. 결과적으로 전체 의존성 구조는 이질적인 공개 아티팩트 전반에 걸쳐 파편화되어 있으며, 그 복잡성과 재귀적 깊이는 인간이 추적할 수 있는 능력을 훨씬 초과합니다. 우리는 ModSleuth라는 에이전트 시스템을 소개하는데, 이는 소스 기반 증거(source-grounded evidence)를 통해 공개 아티팩트로부터 LLM 의존성 그래프를 재귀적으로 재구성합니다. 우리는 주요 과제가 더 이상 정보 추출이 아니라, 무엇이 의존성을 구성하는지 정의하고 일관되지 않은 문서 전반에 걸쳐 아티팩트 참조를 조정하는 것임을 발견했습니다. 우리는 직접적 및 간접적 의존성을 구별하는 형식화(formalization)를 통해, 운영 중심의 관계(operation-centered relationships)로 이질적인 파이프라인 역할을 표현하고, 이름, 버전, 저장소 전반에 걸쳐 아티팩트 식별자를 해결함으로써 이러한 과제들을 다룹니다. 네 가지 공개 아티팩트가 풍부한 LLM 릴리스에 ModSleuth를 적용하여, 우리는 1,060개의 소스 검증 의존성을 복구하고 현대 LLM 개발의 대규모 의존성 그래프를 구축했습니다. 이 그래프들은 다단계 라이선스 의무(multi-hop license obligations), 학습-평가 결합(train-evaluation coupling), 릴리스된 아티팩트와 학습 시점 아티팩트 간의 불일치, 그리고 그렇지 않으면 발견하기 어려웠을 문서화 비일관성 등을 드러냅니다. 우리는 현대 LLM의 기반이 되는 점점 더 복잡해지는 생태계에 대한 투명한 분석을 지원하기 위해 ModSleuth와 그 결과로 얻은 의존성 그래프를 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

어떤 모델들이 우리의 모델을 기반으로 하는가? 현대 LLM의 보이지 않는 의존성 감사

요약

핵심 포인트

댓글