arXiv논문2026. 06. 04. 13:45

CodegenBench: LLM은 다양한 아키텍처에 걸쳐 효율적인 코드를 작성할 수 있는가?

요약

다양한 하드웨어 아키텍처(x86_64, Sunway, Kunpeng)에서 LLM의 고성능 컴퓨팅(HPC) 코드 생성 능력을 평가하는 CodegenBench를 소개합니다. 연구 결과, LLM은 범용 아키텍처에는 강하지만 문서가 부족한 특화 아키텍처에서는 성능이 크게 저하됨을 확인했습니다.

핵심 포인트

CodegenBench: 다양한 HPC 아키텍처용 코드 생성 벤치마크
범용 아키텍처 대비 특화 아키텍처에서의 LLM 성능 저하 확인
교차 플랫폼 일반화 능력이 현재 LLM의 주요 한계점임
데이터셋 및 자동화 평가 인프라 오픈 소스 공개

대규모 언어 모델 (LLMs)이 범용 프로그래밍 및 GPU 가속 환경 (예: PyTorch, CUDA)을 위한 코드 생성 작업에 대해 광범위하게 평가되어 왔지만, 다양한 아키텍처에 걸친 CPU 중심의 고성능 컴퓨팅 (HPC) 분야에서의 능력은 여전히 충분히 탐구되지 않았습니다. 이러한 격차를 해소하기 위해, 우리는 x86_64, Sunway, Kunpeng라는 세 가지 서로 다른 하드웨어 플랫폼에 걸쳐 효율적인 병렬 코드 생성을 평가하도록 설계된 종합적인 벤치마크 스위트인 CodegenBench를 소개합니다. 우리의 벤치마크는 기초적인 베이스라인을 설정하는 106개의 표준 BLAS (Basic Linear Algebra Subprograms) 루틴과, 각 고유한 슈퍼컴퓨팅 아키텍처에 맞게 조정된 20개의 특화된 연산 커널 (LeetSunway 및 LeetKunpeng)로 구성됩니다. 광범위한 평가 결과, 최첨단 LLM들이 x86_64와 같이 어디에나 있는 아키텍처에 대해서는 최적화된 코드를 생성할 수 있는 반면, 공개 문서와 학습 데이터가 제한적인 도메인 특화 아키텍처에서는 상당한 성능 저하를 보인다는 점이 밝혀졌으며, 이는 교차 플랫폼 일반화 (cross-platform generalization) 측면에서의 결정적인 한계를 강조합니다. 또한, 구현 길이 및 작업 복잡도와 같이 코드 품질에 영향을 미치는 요인에 대한 분석은 현재의 LLM이 간결한 코드 스니펫을 요구하는 중간 정도 난이도의 문제에서 가장 효과적임을 나타냅니다. 우리는 LLM 기반 고성능 코드 생성에 관한 향후 연구를 촉진하기 위해 데이터셋과 자동화된 평가 인프라를 오픈 소스로 공개합니다. 리소스는 https://anonymous.4open.science/r/CodegenBench-EDE1/ 및 https://anonymous.4open.science/r/CodegenBenchDataset-2551 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

CodegenBench: LLM은 다양한 아키텍처에 걸쳐 효율적인 코드를 작성할 수 있는가?

요약

핵심 포인트

댓글