2024. 8. 15. 17:51ㆍ통계 및 분석
안녕하세요? 분석하는 디제이입니다.
오늘은 군집분석 방법 중 하나인 계층적 군집분석이 무엇인지에 대해 설명드리려고 합니다.
글의 순서는 다음과 같습니다.
1. 계층적 군집분석 정의
2. 계층적 군집분석 방법
3. 최적 군집수는?
그럼 가볼까요~?
https://whitem00n.tistory.com/169
계층적 군집분석은 제가 앞서 설명한 데이터 분석 과정 중 4단계 '데이터 분석하기'에 있는 분석 단계로,
군집분석 방법 중 하나입니다.
1. 계층적 군집분석 정의
군집분석은 각 데이터 관측값에 대해 유사성을 측정하여 유사성이 높은,
서로 비슷비슷한 집단들끼리 묶는 분석 방법 중 하나입니다.
쉽게 말하면 데이터 보고 비슷한 것들끼리 묶어서 너는 A집단!, 너는 B집단으로 하자! 라고 하는거죠.
예를 들면 오른손잡이들끼리 묶어서 너는 오른손잡이집단!,
왼손잡이들끼리 묶어서 너는 왼손잡이집단! 으로 분류하는거라 보시면 됩니다.
그런데 데이터를 보고 이들이 유사한지, 아닌지 어떻게, 무엇으로 판단할까요??
바로 '데이터 간 거리'를 활용합니다. 데이터 간 거리를 계산해서 거리가 가까우면 유사하다고 판단하는 것입니다.
거리를 측정하는 방법은 여러가지가 있는데요,
변수가 연속형 변수일 경우
1. 유클리디안 거리(Euclidean Distance)
2. 맨하탄 거리(Manhattan Distance)
3. 표준화 거리(Standardized Distance)
4. 마할라노비스 거리(Mahalanobis Distance)
5. 민코우스키 거리(Minkowski Distance)
등이 있습니다.
변수가 범주형일 경우
1. 자카드거리
2. 코사인유사도
등이 있습니다.
다양한 방법이 있지만 연속형 변수에 대해서는 일반적으로 유클리디언 거리를 사용합니다.
군집분석은 한마디로 '데이터간 거리를 계산해서 유사한 집단들을 묶는 분석법이다'고 할 수 있습니다.
군집분석에는 1.계층적 군집분석과 2. 분할적 군집분석 2가지 방법이 있습니다.
계층적 군집분석은 n개(데이터 개수)의 군집으로 시작해서 점차 군집의 수를 줄여나가는 방법입니다.
아래 그림과 같이 말이죠.
2. 계층적 군집분석 방법
계층적 군집분석에서 가장 많이 사용되는 방법과 특징은 다음과 같습니다.
1. 최단연결법(Single Linkage)
- 새로운 군집을 형성할 때 군집간에 가장 짧은 거리를 계산.
- 군집이 한 쪽으로 치우친 결과가 나오는 경향이 있다.
2. 최장연결법(Complete Linkage)
- 새로운 군집을 형성할 때 군집간에 가장 긴 거리를 계산.
- 군집들을 좀 크게크게 묵어주는 경향이 있다.
3. 평균연결법(Average Linkage)
- 새로운 군집을 형성할 때 군집간에 평균 거리를 계산.
- 최단연결법과 최장연결법의 중간 특성을 갖는다.
4. 센트로이드법(Centroid)
- 새로운 군집을 형성할 때 두 군집의 변수 평균의 벡터 거리(centroid)를 계산
- 이상치에 덜 민감한 경향이 있다.
5. 와드법(Ward)
- 새로운 군집을 형성할 때 군집 내 편자 제곱합(Sum of square)를 계산.
- 군집 내 관측치를 적게 만드는 경향이 있다.
4. 최적 군집수는??
군집의 수는 분석 목적에 따라 다르지면 5개 이하로 선정한다고 알려져있습니다.
이상으로 오늘은 계층적 군집분석에 대해 알아봤는데요.
궁금한 것은 댓글로 달아주시고, 다음에 또 좋은 글로 찾아뵙겠습니다.
감사합니다.
'통계 및 분석' 카테고리의 다른 글
데이터 분석 과정 (0) | 2024.07.13 |
---|---|
회귀모형 변수 선택법 5가지 (0) | 2024.03.25 |