• linear regression과 logistic regression의 차이

    • linear regression

    • Logistic Regression

      • 분류 (classification) 기법이다.
      • 로지스틱 회귀의 목적은 일반적인 회귀 분석의 목표와 동일하게 종속 변수와 독립 변수간의 관계를 구체적인 함수로 나타내어 향후 예측 모델에 사용하는 것
      • 첫 번째 차이점은 이항형인 데이터에 적용하였을 때 종속 변수 y의 결과가 범위[0,1]로 제한된다는 것이고 두 번째 차이점은 종속 변수가 이진적이기 때문에 조건부 확률(P(y│x))의 분포가 정규분포 대신 이항 분포를 따른다
      • $Y_i = \beta_0 + \beta_1X_i + \epsilon_i$ , $Y_i = 0 or 1$

      1.1. Linear Models

  • 이산확률변수의 기댓값, 분산, 표준편차

  • permutation, combination 공식

  • 이항분포(binomial distribution)

  • 베르누이분포(Bernoulli Distribution)

  • 베르누이 분포(이진분류모델)의 모수에 대한 최대가능도추정

    • 확률변수 X가 베르누이 분포를 따르는 이산형 확률변수라고 가정하고 모수를 추정해보자.

      $\theta$ ~ B(1,p)

    • 평균과 분산을 모르는 베르누이 분포에 MLE를 적용하여 모수를 추정하자. 베르누이분포에서 n개의 표본($x_1,x_2,…,x_n$)을 독립적으로 추출한다고 했을 때 각 표본의 표본분포는 아래와 같이 표현될 수 있다.

      $f_{X_i}(x_i;\theta) = P(X=x_i) = p^{x_i}(1-p)^{1-x_i}$ , i = 1, …, n

    • 그러면 독립적으로 추출한 전체 n 개의 표본에 대한 likelihood는 아래와 같이 표현될 것이다.

      $P(x|\theta) = \prod_{i=1}^n f_{X_i}(x_i;\theta) = \prod_{i=1}^n p^{x_i}(1-p)^{1-x_i}$

    • 양변에 log를 취하여 log likelihood function, $L(x|\theta)$ 를 구하면, 아래와 같이 전개된다.

      $L(x|\theta)=log P(x|\theta) = \sum_{i=1}^n log p^{x_i}(1-p)^{1-x_i}$

      $L(x_1,x_2,...,x_n|\theta)= xlog p + (1-x)log(1-p)$

  • 승산(Odds)

    • 성공 확률을 p로 정의할 때, 실패 대비 성공 확률 비율
    • $Odd = \frac p {1-p}$
    • 스포츠 토토에서 배당금을 계산할 때 사용됨.
    • 아래 표를 보면, 각 국가별 우승확률에 대한 배당금표인데, 2018년 2월 12일 한국의 우승 odds는 1/500으로, 확률은 1/(500+1) = 0.1996%이다.

    Untitled

    • logistic regression에서의 odds
      • $P(X = x) = \frac 1 {1+ e^{(-\beta_0 + \beta_1 x)}}$

      • $odds = \frac {P(X=x)} {1-P(X=x)}$ 범주 0에 속할 확률 대비 범주 1에 속할 확률

      • 양변에 log를 취하면, Logit Transform(로짓 변환)

        $log(Odds) = log(\frac {P(X=x)} {1-P(X=x)}) = log(\frac{\frac 1 {1+ e^{(-\beta_0 + \beta_1 x)}}} {1- \frac 1 {1 + e^{(-\beta_0 + \beta_1 x)}}}) = \beta_0 + \beta_1 x$

  • Multinomial Logistic Regression

    • $\pi(X) =\frac 1 {1+ e^{-(\beta_0 + \beta_1 x_1 + \beta_2 x_2+…+\beta_p x_p)}}$ 헷갈릴 수 있으니, logistic function을 $\pi(X)$ 라고 정의하자.

    • $\theta$ ~ B(1,p), parameter는 베르누이분포를 따르므로, 아래와 같다.

      $f_{y_i}(x_i;\theta) = \pi(x_i)^{y_i}(1-\pi(x_i))^{1-y_i}$

    • odds = $\frac{\pi(X)} {1-\pi(X)} = e^{(\beta_0 + \beta_1 x_1 + \beta_2 x_2+…+\beta_p x_p)}$

    • $log(odds) = log(\frac{\pi(X)} {1-\pi(X)}) = \beta_0 + \beta_1 x_1 + \beta_2 x_2+…+\beta_p x_p$

    • MLE를 구하면,

      $L(x|\theta)= ln\prod_{i=1}^n [ \frac {\pi(x_i)}{(1-\pi(x_i)}]^{y_i} + \sum_{i=1}^n ln(1-\pi(x_i))$

    = $\sum_{i=1}^n y_i ln[ \frac {\pi(x_i)}{(1-\pi(x_i)}] + \sum_{i=1}^n ln(1-\pi(x_i))$

    = $\sum_{i=1}^n y_i ( \beta_0 + \beta_1 x_1 + \beta_2 x_2+…+\beta_p x_p) + \sum_{i=1}^n ln(1+e^{(\beta_0 + \beta_1 x_1 + \beta_2 x_2+…+\beta_p x_p)})$

    • 위 log likelihood function가 최대가 되는 parameter $\beta$ 를 결정해야하는데, parameter에 대해 비선형이므로 선형회귀 모델과 같이 명시적인 해가 존재하지 않는다. (NO closed-form solution exists)
    • iterative reweight least square, Conjugate gradent, Newton’s method(경사하강법) 등의 수치 최적화 알고리즘을 이용하여 해를 구함.
  • Cross entropy

    • $H(p,q) = H(p) + D_{KL}(p||q)$ (보통, ||는 벡터에서 크기를 나타내는 표기법이다.)

    Untitled

  • 정보량