엔터프라이즈 소프트웨어 엔지니어링을 위한 LLM 커스터마이징
요약
Google은 엔터프라이즈 소프트웨어 엔지니어링에 최적화된 Gemini의 적응형 모델인 Gemini for Google(GfG)을 개발했습니다. 1조 개의 토큰으로 구성된 독점 데이터셋과 치명적 망각을 방지하는 미드 트레이닝 전략을 통해, 개발자의 반복 횟수를 23% 줄이고 코드 생존율을 17% 향상시키는 성과를 거두었습니다.
핵심 포인트
- 1조 개의 토큰으로 구성된 엔터프라이즈 특화 독점 데이터셋 큐레이션
- 치명적 망각(Catastrophic forgetting) 완화를 위한 미드 트레이닝 전략 적용
- 29,000명 대상 A/B 테스트를 통해 코드 생존율 17% 향상 입증
- 데이터 추출부터 풀스택 모델 튜닝, 배포까지의 엔드 투 엔드 방법론 제시
엔터프라이즈 소프트웨어 개발은 점진적인 추가, 아키텍처 수정, 프로덕션 배포 및 엄격한 유지보수를 특징으로 하는 지속적인 진화 과정입니다. 이러한 활동은 현대의 LLM (Large Language Models)이 엔터프라이즈 소프트웨어 엔지니어링을 위한 추가적인 도구 가능성을 열 수 있도록 파인튜닝 (Finetuning)할 수 있는 가치 있는 데이터를 생성합니다. 최첨단 LLM들은 이미 매우 뛰어난 능력을 갖추고 있지만, 이러한 형태의 커스터마이징 (Customization)은 엔터프라이즈 특화 최적화를 위한 설득력 있는 경로를 제공합니다. 우리는 Google의 내부 소프트웨어 엔지니어링 생태계에 특화된 Gemini의 적응형 모델인 Gemini for Google (GfG)을 소개합니다. 본 논문은 1조 개의 토큰으로 구성된 독점 데이터셋을 큐레이션하는 것부터 치명적 망각 (Catastrophic forgetting)을 완화하는 미드 트레이닝 (Mid-training) 전략을 구현하는 것에 이르기까지, 모델의 엔드 투 엔드 (End-to-end) 개발 과정을 상세히 설명합니다. 29,000명의 개발자를 대상으로 한 대규모 블라인드 A/B 테스트 결과, Gemini for Google은 베이스라인 (Baselines) 모델들을 크게 능가했습니다. 구체적으로 턴당 평균 반복 횟수를 23% 감소시켰으며, 코드 생존율 (Code survival rates)을 약 17% 향상시켰습니다. 지표를 넘어, 우리는 다음과 같은 내용을 포함하여 엔터프라이즈 모델 적응을 위한 포괄적인 청사진을 제공합니다: (1) 소프트웨어 엔지니어링 데이터로부터 고가치 신호 추출, (2) 데이터 준비 전략, (3) 풀스택 모델 튜닝 (Continued pre-training 및 Post-training), (4) 다운스트림 (Downstream) 애플리케이션의 배포. 우리는 이 방법론이 다른 조직들이 내부 엔지니어링 데이터의 잠재력을 완전히 끌어낼 수 있는 복제 가능한 경로를 제공할 것이라고 믿습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기