정신 건강 상호작용을 위한 대규모 언어 모델(LLM)의 프레이밍 민감적 행동 불안정성 감사
요약
정신 건강 지원을 위한 LLM 상호작용 시, 질문의 맥락적 프레이밍에 따라 모델의 응답이 불안정해지는 현상을 연구했습니다. 층별 프로빙과 활성화 스티어링을 통해 프레이밍이 모델의 내부 표현에 미치는 영향을 분석하고, 시스템의 신뢰성을 위한 강건성 확보의 중요성을 강조합니다.
핵심 포인트
- 맥락적 프레이밍 변화가 LLM의 응답 일관성을 저해함
- 층별 프로빙을 통해 프레이밍 관련 정보가 트랜스포머 전반에 분포함을 확인
- 활성화 스티어링으로 프레이밍 관련 표현이 행동 결과에 영향을 미침을 입증
- 정신 건강 AI 시스템 구축 시 맥락적 변동에 대한 강건성 검증 필수
대규모 언어 모델(LLMs)은 정신 건강 지원 도구 및 기타 심리적으로 민감한 대화형 애플리케이션에 점점 더 많이 통합되고 있습니다. 이러한 환경에서 행동의 안정성과 일관성은 신뢰할 수 있는 인간-AI 상호작용을 위해 중요합니다. 그러나 의미론적으로 유사한 고민이라 할지라도 서로 다른 맥락적 프레이밍(contextual framings)을 통해 제시될 수 있으며, 이는 잠재적으로 모델의 서로 다른 응답을 유도할 수 있습니다. 이러한 프레이밍 민감적 변동성(framing-sensitive variability)은 시스템 행동에 대한 사용자의 기대를 저해하고 AI 신뢰성 평가를 복잡하게 만들 수 있습니다. 기존 연구들은 주로 이러한 효과를 행동 수준에서 조사해 왔으나, 프레이밍 관련 변동이 정렬된(aligned) 언어 모델의 내부 표현(internal representations)에 어떻게 반영되는지에 대해서는 알려진 바가 적습니다. 본 연구에서는 여러 지시어 튜닝(instruction-tuned) 모델 제품군에 걸쳐 다양한 맥락적 프레이밍 조건을 아우르는 통제된 매칭 프롬프트(matched prompts)를 사용하여 이러한 효과를 조사합니다. 아키텍처 전반에 걸쳐, 프레이밍은 해석적 응답 경향을 체계적으로 변화시킵니다. 층별 프로빙(Layer-wise probing) 분석 결과, 행동과 관련된 정보는 트랜스포머(transformer) 깊이 전반에 걸쳐 해독(decodable) 가능한 상태로 유지되며, 해독 강도에는 아키텍처에 따른 차이가 나타납니다. 또한, 강력한 어휘적 베이스라인(lexical baselines)에도 불구하고, 홀드아웃 프레이밍 프로브(held-out framing probes)는 아키텍처 전반에 걸쳐 일관되게 우연 수준(chance) 이상을 유지했습니다. 활성화 스티어링(Activation steering) 실험은 프레이밍과 관련된 표현 방향(representational directions)이 다운스트림 행동 결과(downstream behavioral outcomes)를 부분적으로 조절할 수 있음을 시사합니다. 마지막으로, 이러한 발견은 정신 건강 지향적 상호작용에 배치된 대화형 AI 시스템의 일관성과 신뢰성을 평가할 때 맥락적 변동에 대한 강건성(robustness)이 중요한 고려 사항이 될 수 있음을 나타냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기