실제 환경에서의 보안 및 개인정보 보호 프롬프트: 사용자는 LLM에 무엇을 묻고 LLM은 어떻게 응답하는가
요약
WildChat 데이터셋을 활용하여 사용자가 LLM에 질문하는 보안 및 개인정보 보호(S&P) 프롬프트의 특성을 분석한 연구입니다. 상용 모델이 오픈 웨이트 모델보다 우수한 성능을 보이지만, 실행 시마다 응답의 일관성이 떨어져 사용자에게 혼란을 줄 위험이 있음을 확인했습니다.
핵심 포인트
- WildChat 데이터셋에서 14,727개의 S&P 프롬프트 식별
- 상용 LLM이 오픈 웨이트 모델 대비 높은 응답 품질 기록
- 상용 모델의 응답 일관성 부족 및 모순된 답변 위험 발견
- S&P 분야의 실제 사용자 질의 패턴에 대한 최초의 체계적 분석
대규모 언어 모델 (LLMs)은 사용자의 정보 요구를 충족하기 위해 널리 사용됩니다. 사용자는 LLM에게 날씨를 묻거나, 교육적인 질문을 던지며, 법률적 도움을 받기 위해 상담하기도 합니다. 특히 연구가 미진한 분야 중 하나는 디지털 보안 및 개인정보 보호 (S&P) 분야로, 사용자는 온라인 계정을 보호하는 방법이나 사이버 공격으로부터 컴퓨터를 보호하는 방법에 대해 LLM의 도움을 구할 수 있습니다. 저희가 알고 있는 바로는, 사용자가 LLM에 묻는 S&P 질문을 수집하거나 분석한 이전 연구는 없었습니다. LLM 응답 품질에 관한 기존 연구들은 사용자 질의보다는 전문가가 작성한 S&P 오해 사례나 FAQ에 의존해 왔습니다. 실제 환경에서 수집된 320만 개의 사용자-LLM 대화 데이터셋인 WildChat을 활용하여, 본 연구는 14,727개의 S&P 프롬프트를 식별하고 이를 광범위한 S&P 주제를 아우르는 9가지 카테고리로 분류했습니다. S&P 프롬프트 중에서 450개를 샘플링하여 사용자가 LLM에 묻는 S&P 질문의 특성을 파악하기 위한 주제 분석 (thematic analysis)을 수행했습니다. 주제 분석과는 별도로, 사용자가 권장 사항, 지침 또는 특정 S&P 정보를 요청하는 270개의 조언 요청형 S&P 프롬프트를 선별했습니다. 저희는 해당 프롬프트를 LLM에 10번 제시했을 때의 LLM 응답 품질과 일관성을 측정했습니다. 연구 결과, 상용 LLM이 오픈 웨이트 (open-weight) 모델보다 우수한 성능을 보였습니다 (GPT 5.5는 프롬프트의 98%에서 "충분히 좋은" 응답을 제공한 반면, Llama 4는 47%를 기록했습니다). 그러나 평균적으로 고품질의 응답을 받은 프롬프트들 중에서도, 상용 모델은 실행 시마다 때때로 모순된 응답을 생성하여 사용자를 혼란스럽게 하거나 잘못된 길로 인도할 위험이 있음을 발견했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기