arXiv논문2026. 06. 30. 10:24

사전 학습된 또는 미세 조정된 LLM으로부터의 보상 없는 코드 정렬: 코드 생성에서의 트레이드오프 분석

요약

LLM의 코드 생성 성능 향상을 위한 정렬(Alignment) 기술의 효과를 분석한 연구입니다. DPO와 BoNBoN 기법을 활용하여 사전 학습 모델과 미세 조정 모델 간의 정렬 경로에 따른 기능적·비기능적 요구사항의 트레이드오프를 실증적으로 규명했습니다.

핵심 포인트

DPO와 BoNBoN을 활용한 보상 없는(reward-free) 코드 정렬 연구
사전 학습 모델에서 정렬 시 성능 개선 폭이 미세 조정 모델보다 큼
미세 조정 모델에서 정렬 시 성능 향상이 적거나 오히려 저하될 수 있음
코드의 기능적 정확성과 가독성 등 비기능적 품질 간의 트레이드오프 확인

대규모 언어 모델 (Large Language Model, LLM) 정렬 (alignment)은 선호 데이터 (preference data)를 사용하여 LLM이 설정된 품질 표준을 더 잘 충족하는 출력을 생성하도록 학습시키는 과정입니다. LLM 정렬 기술이 비코딩 작업에 대해 연구되어 왔지만, 코딩 작업에서의 유용성에 대해서는 알려진 바가 거의 없습니다. LLM 코드 정렬이 기능적 요구사항 (functional requirements, 실행 가능하고 정확한 코드 생성)과 비기능적 요구사항 (non-functional requirements, 코드 가독성, 스타일, 유지보수성)을 모두 지원할 수 있는지는 불분명합니다. 또한 코드 LLM을 위한 정렬을 베이스 사전 학습 버전 (base pretrained version)에서 시작해야 하는지, 아니면 미세 조정된 (finetuned, 즉 지시어 미세 조정된 (instruction-tuned)) 버전의 LLM에서 시작해야 하는지도 알려져 있지 않습니다. 본 논문에서는 실증적 연구를 수행함으로써 위의 두 가지 연구 질문에 대한 통찰을 제공합니다. 우리는 널리 사용되는 두 가지 LLM 정렬 기술인 직접 선호 최적화 (Direct Preference Optimization, DPO)와 BoNBoN을 사용하여 다섯 가지 최첨단 (State-of-the-Art, SOTA) LLM을 연구했습니다. 각 학습 기록에 대해, 우리는 SelfCodeAlign 파이프라인을 사용하여 수락된 인스턴스와 거부된 인스턴스로서의 선호 쌍 (preference pair)을 생성했습니다. DPO와 BoNBoN은 보상 없는 (reward-free) 모델로, 즉 출력 선호도에 대한 여러 보상 점수 (reward scores)의 필요성을 제거합니다. 우리는 LLM의 사전 학습된 버전과 미세 조정된 버전이라는 두 가지 설정에서 두 가지 정렬 기술을 사용하여 각 LLM을 튜닝했습니다. 우리는 네 가지 SOTA 벤치마크 (HumanEval+, MBPP+, EvalPerf, EvoEval)를 사용하여 기능적 요구사항을 평가하였고, 소프트웨어 공학 관행에서 도출된 다섯 가지 차원에 걸쳐 코드 품질을 평가하는 CODAL 벤치마크를 사용하여 비기능적 요구사항을 평가했습니다. 연구 결과, 사전 학습에서 정렬으로 이어지는 경로 (pretrained-to-aligned pathways)가 사전 학습 변체에 비해 정렬된 변체에서 더 큰 개선을 달성함을 발견했습니다. 그러나 사전 학습 변체는 일반적으로 미세 조정된 변체보다 정확도가 낮습니다. 반면, 미세 조정에서 정렬로 이어지는 경로 (finetuned-to-aligned)는 미세 조정된 변체에 비해 정렬된 변체에서 더 작은 성능 향상을 보이거나, 어떤 경우에는 성능 저하를 보이기도 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

사전 학습된 또는 미세 조정된 LLM으로부터의 보상 없는 코드 정렬: 코드 생성에서의 트레이드오프 분석

요약

핵심 포인트

댓글