대학 이해관계자를 위한 멀티모달 채팅 어시스턴트 개발 연구: RAG 기반 접근 방식
요약
RAG 기술을 활용하여 대학 이해관계자를 위한 멀티모달 채팅 어시스턴트 개발 연구를 소개합니다. LLM과 VLM을 결합하여 텍스트와 이미지 질의를 처리하며, 양자화 추론을 통해 효율적인 배포를 구현했습니다.
핵심 포인트
- RAG 기반 시스템을 통해 환각 현상을 31.7%에서 6.6%로 대폭 감소
- 텍스트와 이미지를 모두 처리하는 멀티모달(VLM) 기능 제공
- 양자화 추론을 적용하여 제한된 하드웨어 환경에서도 신속한 배포 가능
- FastAPI와 Next.js를 활용한 확장성 있는 시스템 아키텍처 구축
대학 이해관계자들은 시의적절하고 신뢰할 수 있는 정보에 접근하는 데 종종 어려움을 겪으며, 특히 지능형 지원 시스템이 매우 적은 개발도상국에서 그러합니다. 기존의 규칙 기반 (rule-based) 챗봇은 복잡하고 도메인 특화된 질의를 처리할 수 없으며, 변화하는 기관 정책에 적응할 수 있는 역량도 부족합니다. 이러한 공백을 메우기 위한 해결책으로, 우리는 검색 증강 생성 (RAG, Retrieval-Augmented Generation)을 활용한 멀티모달 대학 챗봇을 제시합니다. 이 시스템은 대규모 언어 모델 (LLM, Large Language Model)과 의미론적 검색 (semantic retrieval)을 결합하여 대학 핸드북과 같은 기관 중심의 리소스로부터 문맥 기반의 응답을 생성합니다. 본 시스템은 시각-언어 모델 (VLM, Vision-Language Model)을 통해 텍스트 및 이미지 질의를 수용하며, 제한된 하드웨어에서도 신속한 배포가 가능하도록 양자화 추론 (quantized inference)을 적용합니다. FastAPI로 구축된 확장 가능한 백엔드와 Next.js로 개발된 반응형 프론트엔드의 결합은 실시간 사용성을 보장합니다. 우리의 멀티모달 평가 결과에 따르면, 시각적 입력에 대한 응답 시간의 증가에도 불구하고 시스템은 텍스트와 이미지 질의 모두에서 높은 만족도 점수를 유지하는 것으로 나타났습니다. 또한, 정량적 평가를 통해 제안된 RAG 기반 시스템에서 환각 (hallucination) 현상이 31.7%에서 6.6%로 감소함을 확인하였으며, 이는 검색 그라운딩 (retrieval grounding)의 효과를 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기