arXiv논문2026. 06. 15. 08:30

SentTrack: GitHub 이슈 저장소에서의 감성 기반 병목 현상 탐지

요약

GitHub 이슈 스레드의 대화 데이터를 분석하여 소프트웨어 개발의 사회-기술적 병목 현상을 탐지하는 SentTrack 프레임워크를 제안합니다. LLM과 감성 분석을 결합하여 코드 메트릭이 놓치는 워크플로의 비효율성과 정체 구간을 조기에 식별합니다.

핵심 포인트

LLM을 활용해 이슈 텍스트를 요약하고 의미론적 클러스터를 생성
감성 신호를 통해 전통적인 라벨 방식보다 빠르게 개발 위험 감지
부정성, 정체, 해결 격차를 결합한 가중치 점수로 우선순위 제공
AvaloniaUI 저장소 데이터를 통해 프레임워크의 유효성 검증

소프트웨어 엔지니어링 팀은 업무를 조율하고, 버그를 보고하며, 기술적 결정을 협의하기 위해 GitHub 이슈 스레드에 점점 더 많이 의존하고 있습니다. 그러나 대부분의 저장소 상태 관리 도구들은 코드 메트릭 (code metrics)에만 집중하며, 개발을 촉진하거나 지연시키는 대화의 역학 (conversational dynamics)은 무시합니다. 본 논문은 GitHub 이슈 토론에서 사회-기술적 병목 현상 (socio-technical bottlenecks)을 탐지하기 위한 이중 렌즈 프레임워크인 SentTrack을 제시합니다. 약 9,000개의 이슈 스레드가 포함된 AvaloniaUI 오픈 소스 저장소에 적용하여, 이 프레임워크는 세 가지 질문을 다룹니다: 실시간 대화 데이터로부터 워크플로 비효율성 탐지를 어떻게 자동화할 것인가, 감성 신호 (sentiment signals)가 전통적인 라벨 기반 방식보다 위험을 더 일찍 드러낼 수 있는가, 그리고 혼합 미디어 이슈 텍스트에서 기계 생성 노이즈로부터 인간의 서사 (human narrative)를 어떻게 분리할 것인가입니다. SentTrack은 두 가지 상호 보완적인 파이프라인을 결합합니다. 수평적 파이프라인 (horizontal pipeline)은 거대 언어 모델 (large language model)을 사용하여 가공되지 않은 이슈 보고를 깨끗한 요약본으로 번역하고, 중간 수준의 관심 구절을 추출하며, UMAP 및 HDBSCAN을 통해 이를 클러스터링하여 처리된 첫 3,608개의 이슈로부터 613개의 의미론적 클러스터 (semantic clusters)를 생성합니다. 수직적 파이프라인 (vertical pipeline)은 ABCDE 협업 상호작용 프레임워크를 적용하여 각 댓글을 분류하고 스레드 수준의 결과를 추론합니다. 전체 코퍼스 (corpus)에 걸쳐 49%의 스레드가 정체 (stagnation)로 끝났고 단 13%만이 해결 (resolution)에 도달했으며, 해결 격차 (resolution gap)가 지배적인 병목 신호로 식별되었습니다. 부정성 (negativity), 정체, 해결 격차, 그리고 스레드 길이를 결합한 가중치 점수 엔진은 관리자에게 개발을 지연시키기 전 마찰이 심한 토론을 식별할 수 있는 해석 가능한 우선순위 지정 도구를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기