지난 포스팅([인공지능 및 기계학습 개론] 4.2 Introduction to Logistic Regression)에서 logistic regression에 대한 식을 다음과 같이 구했었습니다.: P(Y∣X)=1+eXθeXθ 이 때의 θ를 구하기 위해 MLE를 복기해보면 아래와 같습니다. θ^=θargmaxP(D∣θ) 여기서 D에 대해 좀 더 구체적으로 상황을 고려해서, input Xi에 대한 label Yi가 있다고 해보겠습니다. 통계적으로는 input이 따르는 분포에서 Xi라는 변수들을 iid로 추출하고, 마찬가지로 label이 따르는 분포에서 Yi를 iid로써 추출한 것을 보고 있다고 생각하시면 됩니다. 그러면 θ^는 아래와 같이 정리가 가능합니다. θ^=θargmaxP(D∣θ)=θargmaxi=1∏NP(Yi∣Xi;θ)=θargmaxlog(i=1∏NP(Yi∣Xi;θ))=θargmaxi=1∑NlogP(Yi∣Xi;θ) 이제 압정을 던지는 상황처럼 label이 true/false로 나올 수 있다 가정하고 이 상황을 모델링 하면 P(y∣x)=μ(x)y(1−μ(x))1−y 이라 둘 수 있고, 이 때 μ(x)를 다음과 같이 logistic function으로 modeling 해보겠습니다. μ(x)=1+eθtx1=P(y=1∣x) 그러면 θ를 logistic regression 하는 관점, 즉 Xθ=log(1−P(Y∣X)P(Y∣X))를 적용하면 아래와 같이 정리가 가능합니다. logP(Yi∣Xi;θ)=Yilogμ(Xi)+(1−Yi)log(1−μ(Xi))=Yi(logμ(Xi)−log(1−μ(Xi)))+log(1−μ(Xi))=Yilog(1−μ(Xi)μ(Xi))+log(1−μ(Xi))=YiXiθ+log(1−μ(Xi))=YiXiθ−log(1−1+eXiθeXiθ)=YiXiθ+log(1+eXiθ1)=YiXiθ−log(1+eXiθ) 이로부터 θ^를 다시 정리해보면 θ^=θargmaxi=1∑NlogP(Yi∣Xi;θ)=θargmaxi=1∑N(YiXiθ−log(1+eXiθ)) 로 정리할 수 있습니다. argmax 값을 구하기 위해 미분을 통해 극점을 찾아보도록 하겠습니다. θ=(θ0,…,θn)∈Rn+1이므로 각 θj(j=0,…,n)에 대해 편미분하면 ∂θj∂θ=ej, Xiej=Xij이므로, ∂θj∂i=1∑N(YiXiθ−log(1+eXiθ))=i=1∑NYiXij+i=1∑N(−1+eXiθ1⋅eXiθ⋅Xij)=i=1∑NXij(Yi−1+eXiθeXiθ)=i=1∑NXij(Yi−P(Yi=1∣Xi;θ)) 인 것을 알 수 있습니다. 여기서 극점을 찾으려면 마지막 항이 0이 되게 하는 θ를 찾아야 하는데, MLE처럼 θ에 대해 정리가 깔끔하게 되지는 않습니다. 따라서 이렇게 closed form이 없는 경우 근사를 하여 θ를 구합니다.