회귀모형 변수 선택법 5가지

2024. 3. 25. 22:38통계 및 분석

반응형

안녕하세요? 분석하는 디제이입니다.

 

오늘은 회귀모형을 만들 때 변수를 선택하는 5가지 방법에 대해 알아보겠습니다.

 

가시죠!

 


변수 선택법에는 5가지가 있습니다.

1. ALL-in

2. Backward Elimination

3. Forward Selection

4. Bidirectional Elimination

5. Score Comparison

 

여기서 2~4번은 Stepwise Regression에 사용되는 방법들입니다.

 

1. ALL-in

사전에 알려진 지식으로 인해 혹은 반드시 그렇게 해야할 때, 모든 변수를 모형에 적합시키는 방법.

 

2. Backward Elimination

1단계 : 모든 변수를 모형에 적합시킵니다.

2단계 : 적합된 변수의 P-value 중 0.05(혹은 0.1. 분석가의 기준에 따라) 보다 큰 것이 있는지 확인합니다.
3단계 : 가장 큰 P-value를 가진 변수를 제거합니다.

4단계 : 제거한 변수를 제외하고, 다시 모형을 적합시켜 변수들의 P-value를 확인합니다.

5단계 : 적합된 모형에서 변수의 P-value가 모두 0.05(혹은 0.1)보다 작을 때까지 1~4단계를 반복합니다.

 

3. Forward Selection

1단계 : 모든 x변수에 대해 y와 단순회귀모형을 적합시키고, 가장 작은 P-value를 가지는 모형을 선택합니다.

2단계 : 1단계에서 선택한 모형에 변수를 하나만 추가해서 만들 수 있는 모든 경우의 모형을 만들고,
             가장 적은 P-value를 가지는 모형을 선택합니다. 

3단계 : 가장 적은 P-value를 가지는 모형의 P-value가 0.05(혹은 0.1)을 넘으면 과정을 멈춥니다.

ex) x : x1,x2,x3,x4가 있음. 

1단계 : y~x1, y~x2, y~x3, y~x4 4개의 단순회귀모형을 만들고 P-value를 확인.

y~x1의 P-value가 0.0002로 가장 작았다고 가정.

2단계 : y~x1은 고정으로 하고, x1을 제외한 x2,x3,x4변수를 하나씩만 사용해서 만들 수 있는 모든 변수 2개의 다중회귀모형을 만든다.

y~x1+x2, y~x1+x3, y~x1+x4. 

여기서 y~x1+x3의 P-value가 0.002로 가장 작았다고 가정.

3단계 : y~x1+x3은 고정으로 하고, 나머지 x2,x4변수를 하나씩만 사용해서 만들 수 있는 모든 변수 3개의 다중회귀모형을 만든다. ... 이렇게해서 P-value가 0.05보다 크면 멈추고 직전 모형을 최종 모형으로 선정한다.

 

4. Bidirectional Elimination

1단계 : Forward Selection을 진행한다.

2단계 : Backward Elimination을 진행한다.

3단계 : 어떠한 변수도 추가되거나, 제거되지 않을 때 최종 모형으로 선택한다.

 

5. Score Comparison

1단계 : 변수를 사용해서 만들 수 있는 모든 경우의 수에 대해 모형을 만든다.

2단계 : 가장 좋은 criterion을 가진 모형을 선택한다.

 

 

반응형