arXiv중요논문2026. 04. 24. 00:57

LLM 기반 하드웨어 설계: 모델보다 설정(Configuration)이 더 중요하다

요약

기존의 오픈소스 대규모 언어 모델(LLM) 벤치마킹은 어떤 모델을 사용하는지에 초점을 맞추고, 추론 시 디코딩 설정(decoding configuration)을 부차적인 문제로 취급해왔습니다. 본 연구는 하드웨어 설계(RTL Generation) 분야에서 LLM의 성능이 모델 자체의 차이보다 사용자가 설정하는 하이퍼파라미터에 훨씬 민감하다는 것을 입증했습니다. 26개의 오픈소스 LLM을 VerilogEval 및 RTLLM 같은 벤치마크로 평가하고, 특히 세 가지 주요 모델에 대해 108가지 조합의 광범위한 하이퍼파라미터 스윕(swe

핵심 포인트

하드웨어 설계용 LLM 성능은 모델 선택보다 디코딩 설정에 더 크게 좌우된다.
특정 LLM의 최적 성능과 최악 성능 간 격차는 평균적인 모델군 차이보다 훨씬 크다 (최대 25.5%p).
벤치마크 환경에서 얻은 최적 하이퍼파라미터 조합은 다른 작업이나 모델에 전이되지 않는다.
LLM의 잠재력을 최대한 활용하려면 아키텍처와 벤치마크를 고려한 하이퍼파라미터 선택이 필수적이다.

기존 오픈소스 LLM 기반 하드웨어 설계(RTL Generation) 성능 측정은 주로 어떤 모델을 사용하는지에만 초점을 맞추고, 추론 시의 디코딩 설정(decoding configuration)은 부차적인 문제로 다루어 왔습니다.

본 연구는 이 관점에 의문을 제기하며, LLM의 실제 성능이 모델 자체의 차이보다 사용자가 조정하는 하이퍼파라미터에 훨씬 민감하다는 것을 보여주었습니다. 연구진은 26개의 오픈소스 LLM을 VerilogEval 및 RTLLM 같은 벤치마크로 평가했습니다.

특히 세 가지 주요 모델에 대해 총 108가지 조합의 광범위한 하이퍼파라미터 스윕(hyperparameter sweep)을 수행한 결과, 동일한 LLM 내에서도 최적 설정과 최악 설정 간의 절대 성능 격차가 최대 25.5%p에 달하는 것을 발견했습니다. 이는 다양한 모델군들이 기본 설정으로 보여주는 평균적인 성능 차이보다 5배나 큰 수치입니다.

더 나아가, 두 가지 벤치마크 전반에서 모든 설정을 스피어만 상관계수($
ho$)로 순위화했을 때 거의 제로에 가까운 상관관계가 나타났습니다. 이는 특정 모델의 최적 설정이 다른 환경이나 작업으로 옮겨져도 성능을 보장할 수 없음을 의미합니다.

결론적으로, 기본 하이퍼파라미터에서 수행된 벤치마킹은 모델 자체의 능력과 설정 효과를 혼동하게 만듭니다. 오픈소스 LLM이 RTL 생성 분야에서 잠재력을 발휘하려면, 아키텍처와 벤치마크에 맞춰 하이퍼파라미터를 신중하게 선택하는 방법론이 필수적입니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 기반 하드웨어 설계: 모델보다 설정(Configuration)이 더 중요하다

요약

핵심 포인트

댓글