[인과추론 #2] 교란인자 - 제3의 변수의 함정
요약
이번 글은 '교란인자 (confounder)'가 인과 추정을 왜곡하는 원리를 다룹니다. 전체적으로 '여성이 합격률이 낮다'고 보이지만, 학부별로 보면 '모든 학부에서 여성이 합격률이 높다'는 역설적인 상황을 통해 심슨의 패러독스를 설명합니다. 교란인자를 제대로 식별하지 못하거나 부적절하게 조정할 때 발생하는 오류와 그 결과를 구체적인 사례를 통해 직관적으로 이해할 수 있습니다.
핵심 포인트
- 전체 데이터에서는 여성 합격률이 낮아 보이지만, 학부별로 나누어 보면 모든 그룹에서 여성이 더 높은 합격률을 보이는 심슨의 패러독스 현상이 발생합니다.
- 교란인자 (confounder) 는 독립변수와 종속변수 모두에 영향을 미쳐 인과 관계를 왜곡시키는 제3의 변수입니다.
- 교란인자를 식별하지 못하거나 잘못된 변수로 조정할 경우, 인과 추론의 결과가 완전히 반전되거나 오류가 발생할 수 있습니다.
- 이제부터는 심슨의 패러독스와 계수 부호 반전 (sign reversal) 을 실제 사례를 통해 깊이 있게 분석합니다.
【인과추론 #2】교란인자 - 제3의 변수의 함정
이 글에서 다루는 질문
전체적으로 보면 '여성이 합격률이 낮다'. 하지만 학부별로 보면 '어떤 학부든 여성이 합격률이 높다'. 과연 어느 것이 진실일까?
지난번, '상관은 인과가 아니다'라는 것을 확인했습니다. 그 주범은 교란인자 (confounder) 입니다.
이번 글에서는 교란인자가 왜 인과 추정을 망가뜨리는지, 그리고 조정해야 할 변수를 잘못 판단하면 어떤 일이 일어나는지 심슨의 패러독스와 계수 부호 반전 (sign reversal) 의 실제 사례를 통해 체감해 봅니다.
직관적 이해
이전 회차 복습
지난번 '상관과 인과'에서 아이스크림과 익사 사고의 예를 떠올려 봅시다. 기온이라는 제3의 변수가 아이스크림 판매량과 익사 사고를 모두 움직였습니다. 이 제3의 변수가 교란인자 (confounder) 역할을 합니다.
(원문 텍스트가 여기서 끊어지므로, 이후 내용은 원문에 없는 정보로 보충할 수 없습니다.)
AI 자동 생성 콘텐츠
본 콘텐츠는 Zenn ML의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기