arXiv논문2026. 04. 23. 23:33

생성형 AI 평가의 패러다임 전환: MaSH 루프 프레임워크

요약

기존 생성형 AI 평가는 벤치마크를 통해 모델을 고립된 예측 기계로 간주하거나, 이상적인 성능에 초점을 맞추는 경향이 있습니다. 이로 인해 AI가 작동하는 복잡한 사회기술적 과정(sociotechnical processes)과 그 속에서 형성되는 가치가 무시되기 쉽습니다. 본 논문은 생성형 AI를 단일한 시스템으로 평가하는 대신, '다원주의적 사회기술 시스템 (pluralist sociotechnical system)'으로 접근해야 한다고 주장합니다. 이를 위해 '기계-사회-인간 (Machine-Society-Human, MaSH)

핵심 포인트

AI 평가는 단순 출력 측정에서 가치 실현 과정 분석으로 초점을 전환해야 합니다.
MaSH 루프는 모델, 사용자, 기관이 의미와 가치를 상호 재구성하는 순환적 과정을 추적하는 프레임워크입니다.
World Values Benchmark를 통해 세계 가치 조사(World Values Survey) 데이터를 활용한 분포 기반 평가 방법을 제시했습니다.
AI 평가는 중립적인 관찰이 아니라, 시스템의 거버넌스를 형성하는 능동적인 개입임을 강조합니다.

기존 AI 평가는 벤치마크라는 도구를 통해 모델을 고립된 예측 기계로만 바라보는 경향이 있습니다. 이는 AI가 실제 사회에서 작동하며 의미와 가치를 만들어내는 복잡한 과정(sociotechnical processes)을 간과하게 만듭니다.

본 논문은 생성형 AI를 '다원주의적 사회기술 시스템 (pluralist sociotechnical system)'으로 이해하고 평가해야 한다고 주장합니다. 이 관점에서는 모델의 출력 결과 자체를 판단하기보다, 상호작용 속에서 가치가 어떻게 실현되는지(enacted)에 초점을 맞춥니다.

핵심 방법론은 '기계-사회-인간 (Machine-Society-Human, MaSH) 루프' 프레임워크입니다. 이 루프는 모델, 사용자, 그리고 제도적 요인이 의미와 가치를 끊임없이 재구성하는 순환적인 과정을 추적할 수 있게 합니다.

또한, 세계 가치 조사(World Values Survey) 데이터를 기반으로 하는 'World Values Benchmark'를 개발하여, 단순한 점수 매기기를 넘어 분포 기반의 평가 방식을 도입했습니다. 궁극적으로 AI 평가는 중립적인 행위가 아니라, 어떤 가치가 중요하게 다루어질지 결정하는 거버넌스(governance)의 장임을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

생성형 AI 평가의 패러다임 전환: MaSH 루프 프레임워크

요약

핵심 포인트

댓글