arXiv논문2026. 05. 26. 13:23

LLM 매개 소프트웨어 진화를 위한 명세 기반 Code-Text-Code 재공학

요약

LLM을 활용한 코드 변환 시 발생하는 의미론적 드리프트 문제를 해결하기 위해 명세 기반의 Code2Text2Code 재공학 프레임워크를 제안합니다. 소스 코드를 중립적인 텍스트 명세로 변환한 뒤 다시 코드로 생성하여 프로그램의 의도와 동작을 정확하게 보존하는 것이 핵심입니다.

핵심 포인트

Code2Code 변환의 의미론적 드리프트 및 추적 가능성 문제 해결
중립적 텍스트 명세를 통한 프로그램 동작 및 도메인 의도 포착
AST, 그래프 의존성, 자연어 명세를 통합한 지식 표현 계층 구축
변환 손실 추정을 위한 그래프 정식화 및 검증 프로세스 도입

직접적인 Code2Code (코드 대 코드) 변환은 표면적인 구문 (syntax)은 유지하면서도 의미론적 드리프트 (semantic drift), 숨겨진 동작 변화, 추적 가능성 상실, 비관용적 (non-idiomatic) 대상 구현, 또는 도메인 로직의 불완전한 재구성을 초래할 수 있기 때문에 제어하기가 여전히 어렵습니다. 본 논문은 LLM 매개 소프트웨어 진화를 위한 명세 기반의 Code2Text2Code (코드 대 텍스트 대 코드) 재공학 프레임워크를 제안합니다. 핵심 아이디어는 소스 언어의 구문을 직접 전달하지 않고 프로그램의 동작, 식별자 (identifiers), 계산 흐름 (computational flow), 조건, 부수 효과 (side effects), 데이터 의존성, 그리고 도메인 특화 의도를 포착하는 중립적인 텍스트 명세 (textual specification)로 소스 코드를 변환하는 것입니다. 제안된 프레임워크는 사실적 컨텍스트 추출, Code2Text 생성, 소스 코드와 텍스트 명세 간의 반복적 검증, Text2Code 생성, 대상 코드 검증, 검색 증강 접지 (retrieval-augmented grounding), 의미론적 인지 청킹 (semantic-aware chunking), 그리고 변환 손실 추정 (transformation loss estimation)을 결합합니다. 지식 표현 계층은 AST (추상 구문 트리), 그래프 기반 의존성 구조, 중립적 자연어 명세, 기술 문서, 비즈니스 문서, 그리고 아키텍처 수준의 표현으로부터 파생된 메타데이터를 통합합니다. 수행된 실험에는 여러 프로그래밍 언어와 SQL 방언 (dialects)으로 구축된 Code2Text2Code 데이터셋, 중간 표현 (intermediate representations) 비교, 검색 평가, 문서 변환 평가, 그리고 DSPy를 사용한 프롬프트 튜닝 (prompt tuning)이 포함됩니다. 변환 손실을 추정하기 위해 구조적 보존 (structural preservation), 역호환성 (reverse compatibility), 인터페이스 안정성 (interface stability), 그리고 전체 그래프 유사도 (total graph similarity)를 사용하는 그래프 정식화 (graph formalization)가 구현되었습니다. 실험 결과는 Code2Text2Code 접근 방식이 단순한 코드 변환이 아니라, LLM 매개 소프트웨어 진화를 위한 제어된 명세 기반 재공학 프로세스임을 뒷받침합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 매개 소프트웨어 진화를 위한 명세 기반 Code-Text-Code 재공학

요약

핵심 포인트

댓글