PerfCodeBench: 시스템 수준의 고성능 코드 최적화를 위한 LLM 벤치마킹
요약
PerfCodeBench는 LLM이 시스템 수준의 고성능 코드를 얼마나 효율적으로 최적화할 수 있는지 평가하기 위해 설계된 새로운 벤치마크입니다. 기존 벤치마크가 정확성에 집중한 것과 달리, 이 벤치마크는 하드웨어 인식 최적화와 실행 시간 효율성을 중점적으로 측정합니다. 평가 결과, 현재의 최첨단 LLM들은 전문가 수준의 병렬성 및 GPU 연산 최적화 능력에서 여전히 한계를 보이고 있습니다.
핵심 포인트
- 기존 코드 벤치마크의 한계인 성능 최적화 및 시스템 수준 구현 능력 평가 격차 해소
- 하드웨어 인식 최적화(hardware-aware optimization)와 실행 시간 중심의 효율성 측정
- 최신 LLM들이 병렬성 및 GPU 연산 관련 작업에서 전문가 수준의 구현과 격차가 있음을 확인
- 교차 언어 강건성 및 성능 인식 평가의 필요성 강조
대규모 언어 모델 (LLMs)은 종종 기능적으로 올바른 코드를 생성할 수 있지만, 성능이 중요한 시스템 작업에 대해 효율적인 구현을 생성하는 능력은 여전히 제한적입니다. 기존의 코드 벤치마크는 주로 정확성이나 알고리즘 문제 해결을 강조하는 반면, 현실적인 시스템 수준의 최적화는 여전히 충분히 탐구되지 않았습니다. 이러한 격차를 해소하기 위해, 우리는 고성능 코드 최적화에 대한 LLMs를 평가하기 위한 실행 가능한 벤치마크인 PerfCodeBench를 소개합니다. 각 작업은 시스템 수준의 구현 선택, 하드웨어 인식 최적화 (hardware-aware optimization), 그리고 성능 병목 현상에 대한 세심한 처리를 요구합니다. 각 작업에는 실행 가능한 정확성 검사, 베이스라인 구현 (baseline implementation), 그리고 참조용 최적화 솔루션이 포함되어 있습니다. 이를 통해 우리는 정확성과 실행 시간 중심의 효율성 (runtime-oriented efficiency)을 모두 평가할 수 있습니다. 최첨단 (state-of-the-art) LLMs의 광범위한 집합에 대한 우리의 평가 결과는 모델이 생성한 코드와 전문가가 최적화한 구현 사이에 명확한 격차가 있음을 보여줍니다. 이 격차는 특히 병렬성 (parallelism) 및 GPU 연산과 관련된 작업에서 크게 나타납니다. 현재 모델들은 또한 교차 언어 강건성 (cross-language robustness)과 전문가 수준의 효율성에 일관되게 도달하는 측면에서 약점을 보입니다. 이러한 결과는 성능 인식 평가 (performance-aware evaluation)가 여전히 필요함을 시사합니다. LLMs는 단순히 올바른 코드를 생성하는 것을 넘어 효율적인 시스템 소프트웨어를 생산하는 방향으로 나아가야 합니다. 우리는 벤치마크 데이터, 평가 인프라, 그리고 모든 LLMs 생성 코드의 전체 로그를 https://anonymous.4open.science/r/perfcodebench-7CDE 에서 제출합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.PL (Programming Languages)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기