linear regression과 logistic regression의 차이
linear regression
Logistic Regression
이산확률변수의 기댓값, 분산, 표준편차
permutation, combination 공식
이항분포(binomial distribution)
베르누이분포(Bernoulli Distribution)
베르누이 분포(이진분류모델)의 모수에 대한 최대가능도추정
확률변수 X가 베르누이 분포를 따르는 이산형 확률변수라고 가정하고 모수를 추정해보자.
$\theta$ ~ B(1,p)
평균과 분산을 모르는 베르누이 분포에 MLE를 적용하여 모수를 추정하자. 베르누이분포에서 n개의 표본($x_1,x_2,…,x_n$)을 독립적으로 추출한다고 했을 때 각 표본의 표본분포는 아래와 같이 표현될 수 있다.
$f_{X_i}(x_i;\theta) = P(X=x_i) = p^{x_i}(1-p)^{1-x_i}$ , i = 1, …, n
그러면 독립적으로 추출한 전체 n 개의 표본에 대한 likelihood는 아래와 같이 표현될 것이다.
$P(x|\theta) = \prod_{i=1}^n f_{X_i}(x_i;\theta) = \prod_{i=1}^n p^{x_i}(1-p)^{1-x_i}$
양변에 log를 취하여 log likelihood function, $L(x|\theta)$ 를 구하면, 아래와 같이 전개된다.
$L(x|\theta)=log P(x|\theta) = \sum_{i=1}^n log p^{x_i}(1-p)^{1-x_i}$
$L(x_1,x_2,...,x_n|\theta)= xlog p + (1-x)log(1-p)$
승산(Odds)
$P(X = x) = \frac 1 {1+ e^{(-\beta_0 + \beta_1 x)}}$
$odds = \frac {P(X=x)} {1-P(X=x)}$ 범주 0에 속할 확률 대비 범주 1에 속할 확률
양변에 log를 취하면, Logit Transform(로짓 변환)
$log(Odds) = log(\frac {P(X=x)} {1-P(X=x)}) = log(\frac{\frac 1 {1+ e^{(-\beta_0 + \beta_1 x)}}} {1- \frac 1 {1 + e^{(-\beta_0 + \beta_1 x)}}}) = \beta_0 + \beta_1 x$
Multinomial Logistic Regression
$\pi(X) =\frac 1 {1+ e^{-(\beta_0 + \beta_1 x_1 + \beta_2 x_2+…+\beta_p x_p)}}$ 헷갈릴 수 있으니, logistic function을 $\pi(X)$ 라고 정의하자.
$\theta$ ~ B(1,p), parameter는 베르누이분포를 따르므로, 아래와 같다.
$f_{y_i}(x_i;\theta) = \pi(x_i)^{y_i}(1-\pi(x_i))^{1-y_i}$
odds = $\frac{\pi(X)} {1-\pi(X)} = e^{(\beta_0 + \beta_1 x_1 + \beta_2 x_2+…+\beta_p x_p)}$
$log(odds) = log(\frac{\pi(X)} {1-\pi(X)}) = \beta_0 + \beta_1 x_1 + \beta_2 x_2+…+\beta_p x_p$
MLE를 구하면,
$L(x|\theta)= ln\prod_{i=1}^n [ \frac {\pi(x_i)}{(1-\pi(x_i)}]^{y_i} + \sum_{i=1}^n ln(1-\pi(x_i))$
= $\sum_{i=1}^n y_i ln[ \frac {\pi(x_i)}{(1-\pi(x_i)}] + \sum_{i=1}^n ln(1-\pi(x_i))$
= $\sum_{i=1}^n y_i ( \beta_0 + \beta_1 x_1 + \beta_2 x_2+…+\beta_p x_p) + \sum_{i=1}^n ln(1+e^{(\beta_0 + \beta_1 x_1 + \beta_2 x_2+…+\beta_p x_p)})$
Cross entropy