이번 포스팅은 지난 1.1 ~ 1.3 포스팅에 대한 appendix 느낌의 포스팅입니다. 지금까지 쓰였고 앞으로도 자주 쓰일 확률과 분포에 대한 개념을 소개하는 시간입니다.
http://www.edwith.org/machinelearning1_17/lecture/10577
우선 확률에 대해서 알아보도록 하겠습니다. 수학에서는 측도론(measure theory)이라고 불리우는 전공이 있습니다. 이름에서부터 알 수 있듯 measure라는 도구를 사용하여 무언가를 재는데, 이 때 metric과는 다른 의미이니 혼동하면 안됩니다. 확률론 자체가 measure theory를 기반으로 나온 것이므로, measure theory의 내용 중에서 확률을 정의하는데 필요한 만큼만 소개해보도록 하겠습니다.
공집합이 아닌 집합 $\Omega$와, $\Omega$의 멱집합(Power set)의 부분집합 $\Sigma\subset\mathcal{P}(\Omega)$에 대하여, 아래의 두 algebra를 정의합니다. (algebra라는 단어가 나오면 일종의 연산 개념이 들어간다고 생각하시면 됩니다.):
- $\Sigma$ is called an algebra if $\Sigma$ is closed under finite union and complement. That is,
- $\emptyset\in\Sigma$,
- If $E\in\Sigma$, then $E^c\in\Sigma$, and
- If $E_1\in\Sigma$ and $E_2\in\Sigma$, then $E_1\cup E_2\in\Sigma$.
- $\Sigma$ is called a $\sigma$-algebra if $\Sigma$ is an algebra and is closed under countable union.
That is, if $$E=\bigcup_{n=1}^{\infty} E_n$$ where $\{E_n\}_{n=1}^{\infty}$ is a collection of members of $\Sigma$, then $$E\in\Sigma.$$
즉, 단순히 부분집합을 모아놓은데서 그치는게 아니라, 부분집합들을 적당히 잘 모아서 적어도 그 안에서 만큼은 합집합과 교집합에 대해서 닫혀있길 원하는 것입니다. 그 안에서 일종의 연산이 이루어지는 것이죠. (멱집합에 대해서는 [Set] 4. Subset과 Power set를 참조하세요.)
이제 이러한 $\sigma$-algebra 위에서 정의되는 함수가 바로 measure가 되겠습니다.:
Let $\Sigma$ be a $\sigma$-algebra on a nonempty set $\Omega$. A function $\mu:\Sigma\longrightarrow\mathbb{R}\cup\{+\infty\}$ is called a (positive) measure if
- $\mu(E)\ge 0$ for all $E\in\Sigma$,
- (Countable Additivity)
If $\{E_n\}_{n=1}^{\infty}$ is a collection of disjoint members of $\Sigma$, then $$ \mu\bigg(\bigcup_{n=1}^{\infty} E_n\bigg)=\sum_{n=1}^{\infty}\mu(E_n). $$
The triple $(\Omega,\Sigma,\mu)$ is called a measure space.
Measure의 정의의 핵심은 countable additivity에 있다고 생각하는데요. $\sigma$-algebra에 있는 집합들마다 extended real number system (실수 집합에 $\infty$를 추가한 것) 의 숫자들을 대응시키는 이 작업이 바로 measuring 하는 작업인데, 단순히 여기서 그치는 것이 아니라 disjoint union에 해당하는 집합을 잴 때에는 각각을 재서 싹 다 더한 값으로 (정확히는 무한급수의 센스로) 재어지는 것을 원하는 것입니다. 그럼 이러한 countable additivity를 왜 원하는가? 라고 생각하실 수도 있는데, 정해진 답은 없겠지만, 제가 생각하는 이유는 measure의 연속성(continuity)가 성립하길 바라기 때문이라고 생각합니다.:
If $\{E_n\}_{n=1}^{\infty}$ is an ascending collection of members of $\Sigma$, that is, $$ E_1\subset E_2\subset\cdots\subset E_n\subset\cdots, $$ then
$$ \mu\bigg(\bigcup_{k=1}^{\infty} E_k\bigg)=\mu\bigg(\lim_{n\rightarrow\infty}\bigcup_{k=1}^n E_k\bigg)=\lim_{n\rightarrow\infty}\mu\bigg(\bigcup_{k=1}^n E_k\bigg)=\lim_{n\rightarrow\infty}\mu(E_n). $$
이러한 measure 중에서 특수한 조건을 만족하는 measure를 확률이라고 합니다.
A measure $P$ is a probability measure if $$ P(\Omega)=1. $$ We call $(\Omega,\Sigma,P)$ a probability space.
우리가 아는 확률이라는 것은 이렇게 measure-theoretic background를 가지고 있다는 것을 상기하고 넘어가시면 되겠습니다. 나중에 필요한 일이 생긴다면 analysis, measure theory, real analysis, probability theory 등을 따로 공부하시면 됩니다.
이렇게 나온 probability는 아래와 같은 특징을 갖습니다.: $$ \begin{aligned} &P(\emptyset)=0, \\ &0\le P(E)\le 1\text{ for all } E\in\Sigma, \\ &P(E^c)=1-P(E)\text{ for all }E\in\Sigma,\\ &\text{For }A,B\in\Sigma,\:A\subset B\Longrightarrow P(A)\le P(B),\\ &\text{For }A,B\in\Sigma,\:P(A\cup B)=P(A)+P(B)-P(A\cap B). \end{aligned} $$
이미 잘 알고 있는 식들이고 현재는 잘 쓰는 것이 중요하니 증명은 생략하도록 하겠습니다.
다음으로 조건부 확률(Conditional Probability)이라는 개념을 소개하겠습니다. 일반적으로 $P(A)$와 같은 경우는 $A$라는 사건이 일어날 확률을 의미하죠(measure sense로는 $A$의 크기를 $P$라는 measure로 측정한 것). 이와는 다르게 $A$라는 사건이 일어난 상태에서 $B$라는 사건이 일어날 확률을 구하고 싶을 때 쓰는 개념이 바로 조건부 확률이 되겠습니다. 이를 구하는 방법은 다음과 같습니다.: $$ P(B|A)\coloneqq\frac{P(A\cap B)}{P(A)} $$ 흔히들 $P(A\cap B)$와 $P(B|A)$를 혼동하는 경우가 많은데, 이는 예를 하나 잘 기억해두면 도움이 됩니다. 주사위를 한 번 던지는 시행에서 $A$를 짝수의 눈이 나오는 사건이라고 하고 $B$를 $3$보다 작거나 같은 수가 나오는 사건이라고 해보면, $A\cap B$의 의미는 짝수이면서 3보다 작은 수니까 $2$만 해당하니, 전체에서의 비율은 $P(A\cap B)=1/6$이 되는 것이고, $B|A$의 의미는 주사위를 던져서 이미 짝수가 나온 상황이고, 그 중에서 $3$보다 작거나 같은 수를 찾는 것이기 때문에 짝수 $3$개 중 하나인 비율인 $P(B|A)=1/3$이 되는 것입니다. 조건부 확률에 대해서는 Bayes formula와 결합하여 아래의 결과를 추가적으로 얻을 수 있습니다.: $$ P(A|B)=\frac{P(B|A)P(A)}{P(B)} $$ 또, $\{B_n\}_{n=1}^{\infty}$이 partition이라면, 아래의 식도 성립합니다.: $$ P(A)=\sum_{n=1}^{\infty} P(A|B_n)P(B_n) $$ (Partition에 대한 내용은 [Set] 12. Equivalence Relation and Partition을 참조하세요.)
다음으로 확률분포(Probability Distribution)에 대한 내용입니다. 확률변수(Random Variable) $X$가 어떤 확률분포를 따를 때, $X$의 확률밀도함수(Probability Density Function, pdf)를 다음과 같이 정의합니다.: $$ \text{pdf}_X(x)\coloneqq P(X=x) $$ 실제 measure sense에서의 pdf의 정의는 이렇지 않지만, 현재는 이정도로만 이해하고 넘어가도 충분할 것 같습니다. (실해석학(Real Analysis)을 공부하실 분은 Radon-Nikodym Derivative과 pdf 사이의 관계에 대해서 알아보시기 바랍니다.) 우리는 pdf를 통해 확률분포를 이해하고 있죠. 예를 들어, 표준정규분포(Standard Normal Distribution)의 pdf는 다음과 같이 주어집니다.: $$ \text{pdf}_X(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}x^2} $$ 그리고 누적분포함수(Cumulative Distribution Function, cdf)는 다음과 같이 정의됩니다.: $$ \text{cdf}_X(x)\coloneqq\int_{-\infty}^x \text{pdf}_X(x)\:dx $$ 즉, $x$까지의 pdf 값을 모두 모으는 것으로 정의합니다.
이제 자주 쓰는 분포에 대해서 소개하고 마치고자 합니다. 아래에 붙이는 그림은 모두 강의의 슬라이드에서 가져왔음을 알립니다.
가장 유명한 것이 정규분포(Normal Distribution)죠.
정규분포는 평균(mean) $\mu$와 분산(variance) $\sigma^2$를 모수로 가지며, 분포는 $N(\mu,\sigma^2)$로 표기합니다. 이 때의 pdf는 다음과 같이 주어집니다.: $$ \text{pdf}_X(x)=f(x;\mu,\sigma)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} $$ 확률밀도함수만 보더라도 $e^{-x}$의 함수를 평행이동하고 scaling한 구조이기 때문에, 종형으로 그래프가 그려짐을 알 수 있습니다. 그리고 정규분포는 연속형 확률변수가 따르는 분포입니다. (이산형의 예는 아래에서 제시) 정규분포는 중심극한정리(Central Limit Theorem, CLT)하고도 밀접한 관련이 있는 분포이기 때문에, 반드시 파악하고 계셔야 하겠습니다.
다음으로 베타분포(Beta Distribution)에 대해서 알아보겠습니다.
베타분포도 정규분포와 같이 연속형 확률변수가 따르는 분포 중 하나이고, $[0,1]$의 정의역을 가지는 특징이 있습니다. 베타분포는 모수를 $\alpha$, $\beta$로 표기하며, 분포는 $Beta(\alpha,\beta)$로 씁니다. 베타분포의 pdf는 아래와 같이 주어집니다. $$ f(\theta;\alpha,\beta)=\frac{\theta^{\alpha-1}(1-\theta)^{\beta-1}}{B(\alpha,\beta)} $$ where $$ B(\alpha,\beta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)},\quad\Gamma(\alpha)=\int_0^{\infty} t^{\alpha-1} e^{-t}\:dt $$ 이 때 감마함수(Gamma Function) $\Gamma(\alpha)$의 경우 $\alpha\in\mathbb{N}$인 경우 $$ \Gamma(\alpha)=(\alpha-1)!\quad(\alpha\in\mathbb{N}) $$로 정리되는 특징이 있습니다. 베타분포의 평균과 분산은 각각 다음과 같습니다.: $$ E(X)=\frac{\alpha}{\alpha+\beta},\quad Var(X)=\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)} $$
세번째로는 이항분포(Binomial Distribution)에 대해서 알아보겠습니다.
이항분포는 고등학교때부터 다뤘던 분포라 익숙하시리라 생각합니다. 지난 포스팅에서 소개했던 확률이 $p$인 베르누이 시행을 $n$번 독립적으로 시행했을 때의 확률분포를 이항분포라고 하고, 모수로는 총 시행횟수 $n$과 확률 $p$를 갖습니다. 기호로는 $B(n,p)$라 쓰고, 평균은 $np$, 분산은 $np(1-p)$로 주어집니다. 이항분포는 위 두 분포와 다르게 이산형 확률변수가 따르는 분포여서 위의 pdf와 cdf 그래프도 점으로 표현됐음을 알 수 있습니다. 이항분포의 pdf는 다음과 같습니다.: $$ f(k;n,p)=\begin{pmatrix}n \\ k\end{pmatrix} p^k (1-p)^{n-k} $$ 이 때 $$\begin{pmatrix}n \\ k\end{pmatrix}\coloneqq\frac{n!}{k!(n-k)!}$$로 주어지며, 이는 고등학교때 배운 $$ _n C_k $$와 동일합니다. 앞으로는 많은 경우에 전자의 기호를 많이 쓰니 알아두시면 좋겠습니다.
마지막으로 다항분포(Multinomial Distribution)에 대해 알아보고자 합니다. 앞에서는 클래스가 Yes or No 둘 중 하나였기 때문에 하나만 정해주면 나머지는 자동으로 정해지는 구조였고, 지금은 그러한 클래스가 여러개여서 multinomial이라고 부릅니다. 구조는 이항분포와 비슷하게, 총 시행횟수 $n$과 각 클래스마다의 확률 $p_i$를 모수로 갖는 분포입니다. 기호로는 $Mult(p_1,\ldots,p_k)$로 쓰며, 이를 따르는 확률변수 $X$ 또한 일변수가 아닌 다변수 확률변수 $X=(X_1,\ldots,X_k)$로 주어집니다. 이에 대한 pdf는 아래와 같습니다.: $$ f(x_1,\ldots,x_k;n,p_1,\ldots,p_k)=\frac{n!}{x_1!\cdots x_k!}p_1^{x_1}\cdots p_k^{x_k} $$ 이에 대한 평균과 분산은 각 $i=1,\ldots,k$마다 $$ E(X_i)=np_i,\quad Var(X_i)=np_i(1-p_i),\quad Cov(X_i,X_j)=-np_ip_j\quad(i\neq j)$$로 주어지며, 이를 $X$ 전체에 대해서 나타내면, 다음과 같이 평균은 벡터 형태로 나오고: $$ E(X)\coloneqq (E(X_1),\ldots,E(X_k))=n(p_1,\ldots,p_k) $$ 분산은 행렬 형태로 나오게 됩니다.:
$$ \begin{aligned} Var(X) &\coloneqq \bigg(Cov(X_i,X_j)\bigg) \\ &= \begin{pmatrix} np_1(1-p_1) & -np_1p_2 & \cdots & -np_1p_k \\ -np_1p_2 & np_2(1-p_2) & \cdots & -np_2p_k \\ \vdots & \vdots & \ddots & \vdots \\ -np_1p_k & -np_2p_k & \cdots & np_k(1-p_k) \end{pmatrix} \end{aligned} $$
이번 포스팅만으로 확률과 분포를 다 다뤘다고는 절대 못하지만, 기초적인 내용들은 다룬 것 같습니다. 강의에서 다루지 않았던 수학적 부분들을 살을 붙여보았는데, 어차피 이 부분에 대한 수학적인 내용을 다 이해하고 들어갈 수는 없으니 레퍼런스 정도로 이해해주시면 좋을 것 같습니다.
이것으로 이번 포스팅을 마치겠습니다.
'AI > 인공지능 및 기계학습 개론' 카테고리의 다른 글
[인공지능 및 기계학습 개론] 2.2 Introduction to Rule Based Algorithm (0) | 2022.08.15 |
---|---|
[인공지능 및 기계학습 개론] 2.1 Rule Based Machine Learning Overview (0) | 2022.08.15 |
[인공지능 및 기계학습 개론] 1.3 MAP (0) | 2022.08.12 |
[인공지능 및 기계학습 개론] 1.2 MLE (0) | 2022.08.12 |
[인공지능 및 기계학습 개론] 1.1 Motivations (0) | 2022.08.11 |