SentTrack: GitHub 이슈 저장소에서의 감성 기반 병목 현상 탐지
요약
GitHub 이슈 스레드의 대화 데이터를 분석하여 소프트웨어 개발의 사회-기술적 병목 현상을 탐지하는 SentTrack 프레임워크를 제안합니다. LLM과 감성 분석을 결합하여 코드 메트릭이 놓치는 워크플로의 비효율성과 정체 구간을 조기에 식별합니다.
핵심 포인트
- LLM을 활용해 이슈 텍스트를 요약하고 의미론적 클러스터를 생성
- 감성 신호를 통해 전통적인 라벨 방식보다 빠르게 개발 위험 감지
- 부정성, 정체, 해결 격차를 결합한 가중치 점수로 우선순위 제공
- AvaloniaUI 저장소 데이터를 통해 프레임워크의 유효성 검증
소프트웨어 엔지니어링 팀은 업무를 조율하고, 버그를 보고하며, 기술적 결정을 협의하기 위해 GitHub 이슈 스레드에 점점 더 많이 의존하고 있습니다. 그러나 대부분의 저장소 상태 관리 도구들은 코드 메트릭 (code metrics)에만 집중하며, 개발을 촉진하거나 지연시키는 대화의 역학 (conversational dynamics)은 무시합니다. 본 논문은 GitHub 이슈 토론에서 사회-기술적 병목 현상 (socio-technical bottlenecks)을 탐지하기 위한 이중 렌즈 프레임워크인 SentTrack을 제시합니다. 약 9,000개의 이슈 스레드가 포함된 AvaloniaUI 오픈 소스 저장소에 적용하여, 이 프레임워크는 세 가지 질문을 다룹니다: 실시간 대화 데이터로부터 워크플로 비효율성 탐지를 어떻게 자동화할 것인가, 감성 신호 (sentiment signals)가 전통적인 라벨 기반 방식보다 위험을 더 일찍 드러낼 수 있는가, 그리고 혼합 미디어 이슈 텍스트에서 기계 생성 노이즈로부터 인간의 서사 (human narrative)를 어떻게 분리할 것인가입니다. SentTrack은 두 가지 상호 보완적인 파이프라인을 결합합니다. 수평적 파이프라인 (horizontal pipeline)은 거대 언어 모델 (large language model)을 사용하여 가공되지 않은 이슈 보고를 깨끗한 요약본으로 번역하고, 중간 수준의 관심 구절을 추출하며, UMAP 및 HDBSCAN을 통해 이를 클러스터링하여 처리된 첫 3,608개의 이슈로부터 613개의 의미론적 클러스터 (semantic clusters)를 생성합니다. 수직적 파이프라인 (vertical pipeline)은 ABCDE 협업 상호작용 프레임워크를 적용하여 각 댓글을 분류하고 스레드 수준의 결과를 추론합니다. 전체 코퍼스 (corpus)에 걸쳐 49%의 스레드가 정체 (stagnation)로 끝났고 단 13%만이 해결 (resolution)에 도달했으며, 해결 격차 (resolution gap)가 지배적인 병목 신호로 식별되었습니다. 부정성 (negativity), 정체, 해결 격차, 그리고 스레드 길이를 결합한 가중치 점수 엔진은 관리자에게 개발을 지연시키기 전 마찰이 심한 토론을 식별할 수 있는 해석 가능한 우선순위 지정 도구를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기