해양 사고 근본 원인 분석을 위한 다중 필드 하이브리드 검색 증강 생성 (Multi-Field Hybrid Retrieval-Augmented
요약
해양 사고 근본 원인 분석(RCA)을 자동화하기 위해 다중 필드 하이브리드 RAG 프레임워크를 제안합니다. KMST 보고서 데이터를 구조화된 지식 베이스로 변환하고 RRF를 통해 검색 성능을 극대화하여 일관된 보고서 작성을 지원합니다.
핵심 포인트
- KMST 보고서 13,329건을 활용한 구조화된 지식 베이스 구축
- RRF 기반의 필드 인식 하이브리드 검색 전략 채택
- 기존 방식 대비 NormRecall@100 성능 대폭 향상
- LLM-as-a-judge 점수 상승을 통한 RCA 생성 품질 증명
해양 사고 판결 보고서에는 근본 원인 분석 (RCA)을 위한 중요한 재판부의 조사 결과가 포함되어 있지만, 수십 년간의 기록에서 관련 선례를 검색하고 일관된 보고서를 작성하는 작업은 여전히 노동 집약적입니다. 본 논문은 13,329건의 중앙해양안전심판원 (KMST) 보고서 (1971-2025)의 포괄적인 데이터셋을 활용하여 자동화된 해양 RCA를 위한 다중 필드 하이브리드 검색 증강 생성 (RAG) 프레임워크를 제안합니다. 우리는 가공되지 않은 판결문을 '사건 카드 (incident cards)'라는 구조화된 지식 베이스로 변환하며, 계층적 L1/L2 원인 분류 체계와 함께 요약 (Summary), 원인 (Causes), 처분 (Disposition)이라는 세 가지 별도의 필드를 인덱싱합니다. 우리의 검색 전략은 상호 순위 결합 (Reciprocal Rank Fusion, RRF)을 통해 희소 (sparse) 및 밀집 (dense) 랭킹을 융합하는 필드 인식 하이브리드 접근 방식을 채택합니다. 대규모 전문가 관련성 레이블의 부족을 고려하여, 우리는 메타데이터 기반의 대리 관련성 점수 (proxy relevance score)를 바탕으로 상한 정규화 재현율 (ceiling-normalized recall) 및 nDCG를 사용하여 검색 성능을 평가합니다. 실험 결과, 우리가 제안한 검색 방식은 기준 방법 (baseline methods)보다 성능이 크게 뛰어나며, NormRecall@100을 0.18에서 0.55로 향상시켰음을 입증했습니다. 또한, 검색된 선례를 생성기에 근거 (grounding)로 제공함으로써 LLM 전용 기준 모델 대비 RCA 생성 품질을 높였으며, LLM-as-a-judge 점수를 3.34에서 3.72로 증가시켰습니다. 이러한 결과는 필드 인식 RAG가 더 빠른 선례 검색과 더 일관되고 증거에 기반한 RCA 작성을 가능하게 함으로써 해양 안전 조사 워크플로우를 실질적으로 간소화할 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기