arXiv논문2026. 05. 20. 12:02

사전 지식인가 탐색인가? 하드웨어 인지적 코드 최적화에서의 LLM 에이전트에 관한 연구

요약

본 연구는 LLM 에이전트가 하드웨어 인지적 코드 최적화 과정에서 피드백을 활용하는지, 아니면 사전 학습된 지식에 의존하는지를 분석합니다. 실험 결과, LLM은 제공된 피드백이나 특정 지침보다 사전 학습된 데이터(priors)에 크게 의존하며, 특히 저밀도 언어 환경에서는 최적화 성능이 급격히 저하되는 경향을 보였습니다.

핵심 포인트

LLM은 블랙박스 최적화 상황에서 탐욕적 최적화 도구(greedy optimizers)로 작동함
제로샷 커널 생성 시 명시적인 입력 크기 정보는 모델의 성능에 유의미한 영향을 주지 못함
흔하지 않은 커널 크기에 대한 최적화 과업 수행 시 성능이 급격히 저하됨
피드백 루프 환경에서 CUDA는 개선되지만, TVM IR과 같은 저밀도 언어는 성능이 오히려 저하됨
코드 최적화 작업에서 LLM은 에이전트 구조나 피드백보다 사전 학습된 사전 지식에 더 크게 의존함

LLM (Large Language Model) 발견 및 최적화 시스템은 제안-평가-수정 (propose-evaluate-revise) 루프를 구현하며 다양한 도메인에 점점 더 많이 적용되고 있습니다. 이러한 최적화 또는 발견 과정은 환경으로부터 받은 피드백을 바탕으로 한 컨텍스트 조건화 (context conditioning)를 통해 진행됩니다. 그러나 현대의 LLM 에이전트는 구조가 점점 더 복잡해짐에 따라, 어떤 구성 요소가 가장 많이 기여하는지, 그리고 이러한 탐색이 언제 어떻게 실패할 수 있는지를 평가하기가 어렵습니다. 우리는 세 가지 통제된 실험을 통해 이러한 질문에 답합니다. 우리의 연구 결과는 다음과 같습니다: (1) 순수 블랙박스 (black-box) 최적화에서 LLM은 탐욕적 최적화 도구 (greedy optimizers)로 작동합니다. (2) 제로샷 (zero-shot) 커널 생성에서 명시적인 입력 크기 정보를 제공하는 것은 측정 가능한 효과가 없으며, 모델은 크기나 온도 (temperature)에 관계없이 마치 크기 지침이 보이지 않는 것처럼 동일한 커널 파라미터로 수렴합니다. 또한, 흔하지 않은 커널 크기에 대해 커널 최적화를 수행하도록 과업을 부여했을 때, 사용된 언어와 관계없이 성능이 급격히 저하됩니다. (3) 피드백 루프 (feedback-loop) 커널 최적화에서 CUDA는 반복적인 피드백 하에 단조롭게 개선되는 반면, TVM IR은 적극적으로 저하되는데, 이는 모델이 저밀도 언어 (low-density language)로 작동할 때 커널 최적화 성능이 떨어진다는 것을 보여줍니다. 우리의 결과는 코드 최적화 작업에서 LLM이 제공된 피드백이나 에이전트 구조보다는 사전 학습된 사전 지식 (pretrained priors)에 크게 의존한다는 결론을 내립니다.

AI 자동 생성 콘텐츠

원문 바로가기

사전 지식인가 탐색인가? 하드웨어 인지적 코드 최적화에서의 LLM 에이전트에 관한 연구

요약

핵심 포인트

댓글