arXiv논문2026. 06. 24. 10:04

Themis: 인간 피드백 기반 강화학습 (RLHF)을 위한 설명 가능한 AI (XAI) 지원 프레임워크

요약

RLHF를 위한 설명 가능한 AI(XAI) 지원 프레임워크인 Themis를 소개합니다. 200개 이상의 환경을 지원하며, 인간의 선호도를 반영한 보상 모델 훈련과 대규모 사용자 피드백 수집을 위한 클라우드 플랫폼을 제공합니다.

핵심 포인트

RLHF와 XAI를 결합한 최초의 공개 프레임워크 제시
200개 이상의 환경 지원 및 투명성·정렬 실험 가능
인간 선호도에 부합하는 고성능 보상 모델 훈련 입증
1,000명 이상의 사용자를 지원하는 확장 가능한 클라우드 플랫폼

안전한 강화학습 (Reinforcement Learning, RL) 시스템을 훈련하는 것은 원치 않는 행동을 피한다는 보장이 없기 때문에 본질적으로 어렵습니다. 이에 대한 가장 효과적인 방어책은 (i) 설명 가능성 (explainability)을 통한 투명성 확보와 (ii) 인간 피드백을 통한 정렬 (alignment)입니다. 두 방식 모두 유망한 결과를 보여주고 있지만, 현재 이 둘을 결합한 공개적으로 사용 가능한 프레임워크는 없습니다. 이를 해결하기 위해, 우리는 인간 피드백 기반 강화학습 (Reinforcement Learning from Human Feedback, RLHF)을 위한 XAI 지원 테스트 및 평가 프레임워크인 Themis를 소개합니다. Themis는 널리 사용되는 200개 이상의 환경을 지원하며, RL, 투명성 및 정렬 실험을 위해 쉽게 구성할 수 있습니다. 우리의 연구 결과에 따르면, Themis는 인간의 선호도를 사용하여 환경의 실제 보상 신호(true reward signal)와 일치하거나 이를 능가하는 보상 모델 (reward models)을 훈련할 수 있음을 보여줍니다. 또한 우리는 인간 피드백을 수집하고 실험을 관리하기 위한 클라우드 기반 플랫폼을 제공합니다. 이 플랫폼은 사용자 친화적이고 자동 확장 (auto-scalable)이 가능하며, 추가적인 개발 오버헤드 없이 여러 실험에 걸쳐 대규모 참가자 그룹을 지원합니다. 테스트 결과, Themis는 평범한 상용 기기에서 연속적인 실험을 통해 1,000명의 사용자를 지원할 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Themis: 인간 피드백 기반 강화학습 (RLHF)을 위한 설명 가능한 AI (XAI) 지원 프레임워크

요약

핵심 포인트

댓글