LLM 기반 전력 시스템 코드 생성을 위한 지식 경계 탐색 및 수요 유도형 개입
요약
전력 시스템 코드 생성 시 발생하는 API 지식 경계 오류를 해결하기 위한 연구를 소개합니다. PowerCodeBench 벤치마크와 경계 인식 개입 기술을 통해 오픈 웨이트 모델의 정확도를 대폭 향상시켰습니다.
핵심 포인트
- API 지식 경계 오류(환각된 함수명 등)가 코드 생성 실패의 주요 원인임을 규명
- PowerCodeBench 및 L0-L3 문서 기반 탐색 절차 제안
- 선제적 문서 주입을 통해 오픈 웨이트 모델의 정확도를 최대 56% 향상
- 미세 조정 없이도 온프레미스 환경에서 신뢰할 수 있는 코드 생성 가능성 제시
대규모 언어 모델 (LLMs)은 전력 시스템 분석을 자동화하는 데 점점 더 많이 사용되고 있지만, 많은 유틸리티 기업과 에너지 연구소는 기밀 유지, 규제, 재현성 및 비용 문제로 인해 온프레미스 (on-premise) 서빙을 필요로 합니다. 이는 오픈 웨이트 (open-weight) 모델의 신뢰성을 배포의 문제로 만듭니다. 본 연구에서는 전력 시스템 코드 생성에서의 1차 실패가 단순한 추론 문제만이 아니라, 구조화된 API 지식 경계 오류, 즉 버전별 시뮬레이션 라이브러리에서의 환각된 함수 이름 (hallucinated function names), 잘못 사용된 파라미터 (misused parameters), 그리고 잘못 처리된 결과 테이블 (mishandled result tables)에 의해 지배된다는 것을 보여줍니다. 우리는 자연어 운영자 쿼리를 pandapower 코드 및 수치적 정답(ground truth)과 결합한 실행 검증 벤치마크 생성기인 PowerCodeBench, 모델별 API 지식 프로필을 측정하는 L0-L3 문서 기반 탐색 절차, 그리고 쿼리 측 API 수요 추정과 타겟팅된 선제적 문서 주입(proactive documentation injection) 및 경로 지정된 사후 교정(routed reactive correction)을 결합한 경계 인식 개입 (boundary-aware intervention)을 소개합니다. 2,000개의 태스크로 구성된 고정된 릴리스에서, 우리는 10개의 오픈 웨이트 LLM (1.5B-480B 파라미터)과 4개의 상용 미드티어 (mid-tier) API를 평가합니다. 이 개입은 7B 이상의 파라미터를 가진 모든 평가된 오픈 웨이트 모델과 모든 상용 API의 정확도를 32에서 56 포인트까지 향상시킵니다. 70B-120B 범위의 오픈 웨이트 모델은 상용 미드티어 정확도 범위와 일치하며, Llama-3.1-405B와 Qwen3-Coder-480B가 패널을 선도합니다. 타겟팅된 프롬프트는 프롬프트 토큰 비용의 41%만을 사용하면서도 전체 컨텍스트 정확도 상한선을 유지합니다. 그 결과, 미세 조정 (fine-tuning)이나 클라우드 추론 (cloud inference) 없이도 그리드 분석 워크플로우를 위한 신뢰할 수 있는 온프레미스 LLM 지원을 향한 정확도 측면의 배포 시점 경로를 제시합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기