에이전트 기반 대화 위험 식별 분석을 통한 운영 안전성 강화
요약
LLM을 활용한 안전 필수 시스템의 위험 식별 성능을 높이기 위해 에이전트 기반 대화 프레임워크인 HAZDIAL을 제안합니다. 단일 추론의 한계를 극복하고자 다중 에이전트 간의 적대적 및 건설적 토론 방식을 비교 분석하여 위험 분석의 품질을 향상시키는 연구를 수행합니다.
핵심 포인트
- 단일 턴 추론의 취약성을 극복하는 에이전트 기반 대화 프레임워크 HAZDIAL 제안
- 적대적 토론과 건설적 토론 양식의 체계적 비교 연구
- 다중 에이전트 상호작용을 통한 위험 식별 품질 향상 입증
- AI 안전성과 다중 에이전트 추론의 교차점 탐구
산업 공정 제어, 자율 주행, 안전 필수 시스템 (safety-critical systems)과 같이 이해관계가 큰 도메인에서의 운영 안전성 (Operational safety)은 신뢰할 수 있는 위험 식별 (hazard identification)을 요구합니다. 거대 언어 모델 (LLMs)이 안전 분석 작업을 자동화하는 데 유망한 가능성을 보여주었지만, 단일 턴 (single-turn)의 단일 구조 추론 (monolithic inference)은 취약합니다. 즉, 안전 엔지니어들이 반복적으로 적용하는 자기 수정 (self-correction), 숙고 (deliberation), 그리고 문맥적 정교화 (contextual refinement)가 부족합니다. 본 논문에서는 구조화된 에이전트 기반 대화 (agentic dialogue) — 즉, 다중 에이전트 (multi-agent), 다중 턴 (multi-turn) 상호작용 — 가 단일 패스 (single-pass) 베이스라인에 비해 자연어 처리 (NLP) 기반 위험 식별의 품질을 향상시키는지 조사하는 프레임워크인 HAZDIAL을 소개합니다. 우리는 두 가지 대화 양식인 적대적 토론 (adversarial debate)과 건설적 토론 (constructive discussion)을 체계적으로 비교하고, 알고리즘 기반의 에이전트 상호작용 최적화를 제안합니다. 우리는 표준 분류 지표 (정확도 (accuracy), 정밀도 (precision), 재현율 (recall), F1) 및 새로운 대화 지표를 사용하여 선별된 골든 데이터셋 (golden dataset)에 대해 모든 구성을 평가합니다. 본 연구는 대화 시스템 (dialogue systems), 다중 에이전트 추론 (multi-agent reasoning), 그리고 AI 안전성 (AI safety)의 교차점을 발전시키며, 대화 중심의 위험 분석에 대한 실증적 근거를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기