이 포스팅에서는 측도론을 기반으로 확률과 관련된 개념을 정의하고 확률변수의 독립성을 살펴본다.
확률공간과 확률측도
\(\varOmega\)가 집합이고 \(\mathcal{F}\)가 \(\varOmega\)의 부분집합들의 \(\sigma\)-대수이며 \(P\)가 \(\mathcal{F}\) 위에서의 측도이고 \(P(\varOmega ) = 1\)일 때, \((\varOmega ,\, \mathcal{F} ,\, P)\)를 확률공간(probability space)이라고 부른다. 여기서 \(P\)를 확률측도(probability measure) 또는 간단히 확률이라고 부르며, \(\mathcal{F}\)의 원소를 사건(event)이라고 부른다.
\(B\)가 사건이고 \(P(B) > 0\)이라고 하자. 이때 \[ P(A|B) := \frac{P(A\cap B)}{P(B)}\] 를 ‘\(B\)가 주어졌을 때 \(A\)의 조건부확률(conditional probability of A given B)’이라고 부른다.
독립과 종속의 정의
두 사건 \(A\)와 \(B\)에 대하여 \[P(A \cap B) = P(A) \cdot P(B)\] 가 성립할 때, ‘\(A\)와 \(B\)는 서로 독립(independent)이다’라고 말한다. 이것은 여러 개의 사건의 독립성으로 확장할 수 있다. 사건 \(A_1 ,\) \(\cdots ,\) \(A_n\)이 독립이라는 것은 \(k\le n\)인 임의의 \(k\)에 대하여 \(k\)개의 사건들의 교집합의 확률이 그 사건들의 확률의 곱과 같은 것으로 정의한다.
\(\mathcal{F}_1 ,\) \(\cdots ,\) \(\mathcal{F}_n\)이 확률공간 \((\varOmega ,\,\mathcal{F} ,\,P)\) 위에 정의된 \(\sigma\)-대수라고 하자. 이들 \(\sigma\)-대수들이 독립이라는 것은 \(\left\{ 1,\,2,\,\cdots,\,n\right\}\)에서 선택한 서로 다른 \(k\)개의 임의의 첨자 \(i_1 ,\) \(i_2 ,\) \(\cdots ,\) \(i_k\)와 임의의 부분집합 \(F_{i_n} \subseteq \mathcal{F}_{i_n}\)에 대하여 \[P(F_{i_1} \cap F_{i_2} \cap \cdots \cap F_{i_k} ) = P(F_{i_1}) \cdot P(F_{i_2}) \cdots P(F_{i_k})\] 가 성립하는 것으로 정의한다.
\((\varOmega ,\,\mathcal{F} ,\,P)\)가 확률공간이고 \(X : \varOmega \,\to\,\mathbb{R}\)가 함수라고 하자. 만약 임의의 \(a\in\mathbb{R}\)에 대하여 \(X^{-1} ([a,\,\infty )) \in \mathcal{F}\)이면 \(X\)를 확률변수(random variable)라고 부른다. \(\varOmega \subseteq \mathbb{R}\)가 가측집합이고 \(\mathcal{F} = \mathcal{B}\)가 \(\varOmega\)의 보렐 부분집합의 \(\sigma\)-대수이면 확률변수는 \(\mathbb{R}\)로부터 \(\mathbb{R}\)로의 보렐 함수이다.
확률변수의 정의에 의하여 \[X^{-1}(\mathcal{B}) = \left\{ S \subseteq \mathcal{F} \,\vert\, S=X^{-1} (B) \text{ for some } B\in\mathcal{B} \right\}\] 는 \(\mathcal{F}\)에 포함되는 \(\sigma\)-대수이다. 이와 같은 방법으로 확률변수 \(X\)에 의하여 생성된 \(\sigma\)-대수를 \(\mathcal{F}_X\)로 나타낸다.
\(X\)가 임의의 확률변수이고 \(B\)가 보렐 집합일 때 \[P_X (B) := P(X^{-1} (B))\] 라고 정의함으로써 \(B\)의 \(\sigma\)-대수 위에서 정의된 측도를 얻는다. 이 측도 \(P_X\)를 확률변수 \(X\)의 확률분포(probability distribution)라고 부른다. \(P_X\)는 가산가법적이다. 더욱이 \(\varOmega = \mathbb{R} ,\) \(\mathcal{F} = \mathcal{B}\)일 때 \((\mathbb{R} ,\,\mathcal{B} ,\,P_X )\)는 확률공간이 된다.
사건의 독립성을 정의한 것처럼 확률변수의 독립성을 정의할 수 있다. \(X\)와 \(Y\)가 확률변수라고 하자. 만약 \(X,\) \(Y\)에 의하여 생성된 \(\sigma\)-대수가 서로 독립이면 ‘\(X\)와 \(Y\)는 독립이다’라고 말한다. 즉 \(X\)와 \(Y\)가 독립이라는 것은 \(\mathbb{R}\)의 임의의 보렐 집합 \(B,\) \(C\)에 대하여 \[P(X^{-1} (B) \cap Y^{-1} (C)) = P(X^{-1} (B)) P(Y^{-1} (C))\] 가 성립하는 것을 의미한다.
독립이 아닌 두 사건을 종속사건이라고 부른다. 마찬가지로 독립이 아닌 두 확률변수를 종속 확률변수라고 부른다.
기댓값과 분산
\(X\)가 확률공간 \((\varOmega ,\,\mathcal{F} ,\,P )\) 위에서 정의된 확률변수일 때 \(X\)의 기댓값(expectation)을 \[\mathbb{E} (X) := \int_{\varOmega} X \,dP\] 로 정의한다. 기댓값은 확률분포를 이용하여 \[\mathbb{E}(X) = \int_{-\infty}^{\infty} x\, dP_X (x)\] 로 계산할 수 있으며, 절대연속인 확률변수 \(X\)의 밀도 \(f_X\)를 이용하여 \[\mathbb{E}(X) = \int_{-\infty}^{\infty} x f_X (x) \,dx\] 로 계산할 수도 있다.
확률변수 \(X\)와 \(t\in \mathbb{R}\)에 대하여 \[\varphi_X (t) = \mathbb{E} (e^{i t X} )\] 로 정의된 함수 \(\varphi _X\)를 \(X\)의 특성함수(characteristic function of X)라고 부른다. 특성함수는 확률분포를 이용하여 \[\varphi_X (t) = \int e^{i t x} \,dP_X (x)\] 로 계산할 수 있으며, 절대연속인 확률변수 \(X\)의 밀도 \(f_X\)를 이용하여 \[\varphi_X (t) = \int e^{itx} f_X (x) \,dx\] 로 계산할 수도 있다.
\(n\)이 자연수라고 하자. 확률변수 \(X\in L^n (\varOmega )\)의 \(n\)차 모멘트(moment of order n)란 \(\mathbb{E} (X^n )\)을 의미한다. 특히 1차 모멘트를 기댓값이라고 부른다. \(\mathbb{E} (X) = \mu\)라고 하자. 이때 \(X\)의 중심모멘트(central moment)란 \(\mathbb{E} (X-\mu )^n\)을 의미한다.
모멘트는 다음과 같이 확률분포를 이용하여 계산할 수 있다. \[\begin{align} \mathbb{E} (X^n) &= \int x^n \,d P_X (x) ,\\[6pt] \mathbb{E} ((X-\mu )^n ) &= \int (x-\mu )^n \,d P_X (x) . \end{align}\] 만약 \(X\)가 밀도 \(f_X\)를 가진다면 모멘트는 다음과 같이 계산할 수 있다. \[\begin{align} \mathbb{E} (X^n) &= \int x^n f_X (x)\,dx ,\\[6pt] \mathbb{E} ((X-\mu )^n ) &= \int (x-\mu )^n f_X (x) \,dx . \end{align}\] 확률변수 \(X\)의 2차 모멘트 \[\operatorname{Var} (X) = \mathbb{E} (X-\mathbb{E} (X))^2\] 을 \(X\)의 분산(variance)이라고 부른다. \(X\)의 분산은 다음과 같이 계산할 수 있다. \[\operatorname{Var} (X) = \mathbb{E}(X^2 ) - (\mathbb{E} (X))^2 .\] 가우스 분포의 기댓값과 분산은 다음과 같이 계산할 수 있다. \[\begin{align} \mu &= \frac{1}{\sqrt{2\pi}\sigma} \int_{\mathbb{R}} xe^{- \frac{(x-\mu )^2}{2\sigma ^2}} dx , \\[6pt] \sigma^2 &= \frac{1}{\sqrt{2\pi}\sigma} \int_{\mathbb{R}} (x-\mu )^2 e^{- \frac{(x-\mu )^2}{2\sigma ^2}} dx. \end{align}\]
독립성의 조건
두 확률변수가 독립이기 위한 조건은 다음과 같이 나타낼 수 있다.
확률변수가 독립이기 위한 조건.
두 확률변수 \(X,\) \(Y\)가 독립이기 위한 필요충분조건은 보렐 가측인 임의의 유계 함수 \(f,\) \(g\)에 대하여 \[\mathbb{E}(f(X)g(Y)) = \mathbb{E}(f(X))\mathbb{E}(g(Y)) \tag{1}\] 이 성립하는 것이다.
증명
(1)이 성립한다고 가정하자. 그리고 \(B_1 ,\) \(B_2\)가 보렐 집합이라고 하자. \(f = \mathbf{1}_{B_1} ,\) \(g = \mathbf{1}_{B_2}\)라고 하고 (1)을 이용하면 \[\begin{align} \int_{\varOmega} & \mathbf{1}_{B_1} (X(\omega ))\mathbf{1}_{B_2} (Y(\omega ))\,d P(\omega ) \\[6pt] &= \int_{\varOmega} \mathbf{1}_{B_1} (X(\omega )) \,dP(\omega ) \int_{\varOmega} \mathbf{1}_{B_2} (Y(\omega )) \,dP(\omega ) \end{align}\] 를 얻는다. 등식의 좌변을 계산하면 \[\begin{align} \int_{\varOmega} & \mathbf{1}_{B_1 \times B_2} (X(\omega) ,\, (Y(\omega )) \,dP(\omega )\\[6pt] &= P((X \in B_1 ) \cap (Y \in B_2 )) \end{align}\] 이며, 등식의 우변을 계산하면 \[P(X\in B_1 ) P(Y\in B_2 )\] 이다. 그러므로 \(X\)와 \(Y\)는 독립이다.
이제 역을 증명하자. \(X\)와 \(Y\)가 독립이라고 가정하자. 그러면 \(f = \mathbf{1}_{B_1} ,\) \(g = \mathbf{1}_{B_2}\)와 보렐 집합 \(B_1 ,\) \(B_2\)에 대하여 (1)이 성립한다. 두 단순함수 \[\varphi = \sum_i b_i \mathbf{1}_{B_i} ,\, \psi = \sum_j c_j \mathbf{1} _{C_j}\] 를 (1)에 대입하고 선형성을 이용하면 다음을 얻는다. \[\begin{align} \mathbb{E} (\varphi (X) \psi (Y)) &= \mathbb{E} \left( \sum_i b_i \mathbf{1}_{B_i} (X) \sum_j c_j \mathbf{1} _{C_j} (Y) \right) \\[6pt] &= \sum_{i,\,j} b_i c_j \mathbb{E} (\mathbf{1}_{B_i} (X) \mathbf{1}_{C_j} (Y))\\[6pt] &= \sum_{i,\,j} b_i c_j \mathbb{E} (\mathbf{1}_{B_i} (X)) \mathbb{E} ( \mathbf{1}_{C_j} (Y))\\[6pt] &= \sum_{i} b_i \mathbb{E} (\mathbf{1}_{B_i} (X)) \sum_{j} c_j \mathbb{E} ( \mathbf{1}_{C_j} (Y))\\[6pt] &= \mathbb{E} (\varphi (X)) \mathbb{E} (\psi (Y)). \end{align}\] 함수 \(f,\) \(g\)는 단순함수를 이용하여 근사시킬 수 있으며, \(f\)와 \(g\)가 유계이므로 지배수렴 정리를 이용하면 위 등식을 \(f\)와 \(g\)에 대한 등식으로 확장시킬 수 있다.