컴퓨터공학

[머신러닝] Unsupervised Learning

TaeGyeong Lee 2023. 6. 12. 20:12

input만 주어지고, 이에 대한 기조를 스스로 찾아가는 학습 방식

 

PCA (Principal Component Analysis)

앞서 차원 축소에도 활용했던 기법으로 비지도학습에도 응용됨

  • 각 Z1, Z2, Z3... 는 서로 상호 연관성이 없음
  • 적절한 갯수의 주성분 분석을 통해 적절한 군집을 진행해야
    (ex. US Arrest 에서 Rape, Assault, Murder는 PC1 에 연관 UrbanPop은 PC2와 연관)
  • 이때, Elbow method 사용 (가장 PVE 급감 시점을 사용)

 

K-means Clustering

homogeneous subgroup을 우리가 선택한 K 만큼 분류하는 것, 좋은 clustering은 군집 내 변동성이 최소인 것

  • 모두가 적어도 하나의 군집에 포함
  • non-overlapping
  • 유클리디안 거리 계산 사용 (결제금액이 비슷한 고객끼리)
  • random 부여 -> centroid 설정 -> 설정된 centroid 로 재설정 -> 반복
  • local-optimum이므로 반복이 매우 중요 (global optimum 보장 X) -> 여러 번 돌려서 최솟값을 찾는 방식

 

Hierarchical Clustering

우리가 K를 우선으로 주지 않을 때 계층적으로 군집화하는 방법, Bottom-up 방식, 우리가 생성된 dendrogram을 보고 센스있게 결정하면 된다.

  • Correlation 계산 사용 : 흐름이 비슷하면 거리가 짧은 것 (비슷한 상품을 구매한 고객끼리)

소규모 계층 군집 간 disimilarity 확인 및 linakge 방법 (1:1이 아닌 n:n으로 유클리디안 거리 계산이 불가능)

  • Complete : 가장 먼 것끼리의 거리
  • Single : 가장 가까운 것끼리의 거리
  • Average : 모든 원소간 거리의 평균
  • Centroid : 집합 내 중심간 거리