2024. 3. 25. 22:38ㆍ통계 및 분석
안녕하세요? 분석하는 디제이입니다.
오늘은 회귀모형을 만들 때 변수를 선택하는 5가지 방법에 대해 알아보겠습니다.
가시죠!
변수 선택법에는 5가지가 있습니다.
1. ALL-in
2. Backward Elimination
3. Forward Selection
4. Bidirectional Elimination
5. Score Comparison
여기서 2~4번은 Stepwise Regression에 사용되는 방법들입니다.
1. ALL-in
사전에 알려진 지식으로 인해 혹은 반드시 그렇게 해야할 때, 모든 변수를 모형에 적합시키는 방법.
2. Backward Elimination
1단계 : 모든 변수를 모형에 적합시킵니다.
2단계 : 적합된 변수의 P-value 중 0.05(혹은 0.1. 분석가의 기준에 따라) 보다 큰 것이 있는지 확인합니다.
3단계 : 가장 큰 P-value를 가진 변수를 제거합니다.
4단계 : 제거한 변수를 제외하고, 다시 모형을 적합시켜 변수들의 P-value를 확인합니다.
5단계 : 적합된 모형에서 변수의 P-value가 모두 0.05(혹은 0.1)보다 작을 때까지 1~4단계를 반복합니다.
3. Forward Selection
1단계 : 모든 x변수에 대해 y와 단순회귀모형을 적합시키고, 가장 작은 P-value를 가지는 모형을 선택합니다.
2단계 : 1단계에서 선택한 모형에 변수를 하나만 추가해서 만들 수 있는 모든 경우의 모형을 만들고,
가장 적은 P-value를 가지는 모형을 선택합니다.
3단계 : 가장 적은 P-value를 가지는 모형의 P-value가 0.05(혹은 0.1)을 넘으면 과정을 멈춥니다.
ex) x : x1,x2,x3,x4가 있음.
1단계 : y~x1, y~x2, y~x3, y~x4 4개의 단순회귀모형을 만들고 P-value를 확인.
y~x1의 P-value가 0.0002로 가장 작았다고 가정.
2단계 : y~x1은 고정으로 하고, x1을 제외한 x2,x3,x4변수를 하나씩만 사용해서 만들 수 있는 모든 변수 2개의 다중회귀모형을 만든다.
y~x1+x2, y~x1+x3, y~x1+x4.
여기서 y~x1+x3의 P-value가 0.002로 가장 작았다고 가정.
3단계 : y~x1+x3은 고정으로 하고, 나머지 x2,x4변수를 하나씩만 사용해서 만들 수 있는 모든 변수 3개의 다중회귀모형을 만든다. ... 이렇게해서 P-value가 0.05보다 크면 멈추고 직전 모형을 최종 모형으로 선정한다.
4. Bidirectional Elimination
1단계 : Forward Selection을 진행한다.
2단계 : Backward Elimination을 진행한다.
3단계 : 어떠한 변수도 추가되거나, 제거되지 않을 때 최종 모형으로 선택한다.
5. Score Comparison
1단계 : 변수를 사용해서 만들 수 있는 모든 경우의 수에 대해 모형을 만든다.
2단계 : 가장 좋은 criterion을 가진 모형을 선택한다.