2024. 8. 3. 15:41ㆍMathematics/Probability
조건부확률 $P(A|B)$는 사건 $B$가 일어날 상황에서 사건 $A$가 발생할 확률을 의미한다.
인과 관계
조건부확률로 두 변수 간의 상관관계(correlation)를 추론할 수 있지만 이를 인과관계(causality)로 추론하는 것은 매우 위험하다.
그렇기 때문에, 데이터에서 추론할 수 있는 관계, 데이터 생성 원리, 도메인 지식을 기반으로 인과관계를 정확히 추론해야 한다.
인과관계를 짚고 넘어가는 이유는 데이터 분포 변화에 강건한 예측 모델을 만드는데 필요하기 때문이다.
아래 그럼처럼, 상관관계 기반 예측 모델은 데이터 분포 변화에 취약한 모습을 보이는 반면, 인과관계 기반 예측 모델은 강건한 모습을 보인다.
반면, 안과관계만으로는 높은 성능을 담보할 수 없다.
중첩 요인 (Confounding factor)
중첩 요인은 여러 요인 모두에 영향을 주는 공통 요인을 의미한다.
가짜 연관성 혹은 심슨의 역설을 식별 및 해석하기 위해 중첩 요인을 파악하고 통제할 수 있어야 한다.
가짜 연관성 (spurious correlation)
통계학에서 가짜 연관성은 두 변수 사이에 인과관계가 없음에도 불구하고 통계적으로 유의미한 상관관계가 나타나는 현상을 말한다.
가짜 연관성 example: 상어 공격 횟수와 아이스크림 판매량
통계적으로 상어 공격 횟수와 아이스크림 판매량은 유의미한 상관관계를 나타내고 있다.
이는 계절에 따라 상어 공격 횟수와 아이스크림 판매량이 동시에 영향을 받기 때문이다.
이때, 계절이라는 중첩 요인을 통제하면 해당 가짜 연관성임을 보일 수 있다.
예를 들어, 10년치 통계치에서 오직 여름 데이터만 분석해보면 된다.
심슨의 역설 (simpson's paradox)
심슨의 역설은 데이터의 세부 그룹별로 일정한 추세나 경향성이 나타나지만, 전체적으로 보면 그 추세가 사라지거나 반대 방향의 경향성을 나타내는 현상을 의미한다.
심슨의 역설 example: 신장결석 치료법
모든 신장 크기에서 치료법 $a$가 높은 완치율을 보여줬음에도 불구하고 전체 완치율에서 치료법 $b$가 높은 경향을 보이고 있다.
결석 크기가 각 치료법의 완치율에 영향을 줄 뿐만 아니라, 치료법 선택에도 영향을 주기 때문에 위와 같은 현상이 나타날 수 있었던 것이다.
그렇기 때문에, 중첩 요인인 신장 결석 크기를 통제하면 해당 현상이 심슨의 역설임을 파악할 수 있다.
심슨의 역설이 일어난 이유는 치료법 선택이 불균형하기 때문이다.
신장 크기가 작은 환자 357명 중 고작 87명만 치료법 $a$를 택했고 대부분은 치료법 $를 택했다.
만약, 비율이 거의 동일했으면 위와 같은 상황은 벌어지지 않았을 것이다.
그렇기 때문에 다음과 같이, 치료법 선택 비율을 동일하게 둬 중첩 요인을 통제하면 된다.
$$\begin{matrix} p(R=a) = (0.93 * 178.5 + 0.73 * 171.5)/750 \approx 0.8325 \\ p(R=b) = (0.83 * 178.5 + 0.69 * 171.5)/750 \approx 0.7789 \end{matrix}$$
'Mathematics > Probability' 카테고리의 다른 글
[Probability] Markov Chains (0) | 2024.01.19 |
---|---|
[Probability] Bayesian & Likelihood (0) | 2023.12.11 |
[Probability] Law of Large Number & Central Limit Theorem (0) | 2023.12.11 |