요약


LCA(Latent class analysis)은 클러스터링 분석과 유사하게 어느 집단에서 하위그룹이 있는지 알아보는 통계적 방법론이다. 이 하위그룹을 LCA에서는 latent group(=subgroup, 또는 class)라고 한다.

 

언제사용하나? 내가 분석하고자하는 군을 더 나누고자할 때,


LCA은 k-means clustering과 유사하게 연구대상자(cases)을 더 하위 그룹으로 쪼개어 분석하고자할 때, 시행하는 분석방법이다.[1]

 

 

모형(LCA model)의 품질평가. 잠재계층의 수를 어떻게 결정하는가?


LCA의 모형이 얼마나 데이터셋을 잘 평가하는지는 the likelihood-ratio statistic (G2), Akaike information criterion (AIC), Bayesian information criterion (BIC), Adjusted BIC, the log-likelihood, Entropy가 있다. Entropy 값은 클수록, G2 , AIC, BIC, Adjusted BIC와 the log-likelihood 값은 작을수록 모형 이 자료에 적합하다는 것을 의미한다.

K-means clsutering에 보면 inertia라는 값이 있다. Inertia은 클러스터 내의 l2 distnace의 합계이다. 클러스터링의 품질을 평가할 때, 결정요소 K을 inertia로 계산하고, 이 inertia가 툭툭 떨어지다가 잘 안떨어지는 구간을 통상 K로 결정한다. AIC, BIC도 유사하다. AIC, BIC 값이 크게 떨어지다가 감소폭이 떨어지는 잠재계층 수를 연구자가 결정하면된다.

 

 

 

클러스터 분석(Cluster analysis)와의 차이/공통점은 무엇인가?


클러스터 분석과 대표적인 차이를 이해하는 것은 잘 알려진 k-means 알고리즘과 LCA의 차이를 생각해보면 직관적으로 이해가 가능하다.

  LCA K-means
공통점 Person-orient analysis Person-orient analysis
차이점    
  Membership 각 군에 속할 확률이 계산 지정됨.
각 연구대상자가 2군이상 중복되지 않음
  변수 연속형 외 다 가능 연속형
  결측치 결측치에 영향이 별로 없다고 알려짐 많이 영향받음
이상치가 있으면 centroid에 영향줄 수 있음.
  잠재계층의수 Likelihood을 이용하여 AIC, BIC 측정 클러스터링 품질지표(예, 군내 L2거리의 합, 실루엣 계수 등)

 

공통점:

1)     두 분석 모두 “Person-oriented analysis”이다. 각 연구대상자들의 패턴을 비교해서 각 연구대상자들이 어느 그룹에 묶일지를 식별하는 분석방법이다. 이와 반대로, variable centered approach가 있는데, 이건 변수들이 어떤 관계가 있을거다라고 가정하고, 변수들간의 해석을 목적으로하는 분석방법이다. 두 분석 모두 “연구대상자가 어느 그룹으로 할당될지”에 대한 초점이므로 Person-oriented analysis에 해당된다.

차이점:

1.     가정이 다르다. 같은 클러스터(=군)에 있는 연구참여자들이 매우 유사한 변수들을 가지고 있을 것이라 가정한다. 반면, LCA은 잠재계층(latent classes)가 존재하며, 잠재계층의 각 군으로 전 연구대상자들을 설명할 수 있을거라고 가정한다.

2.     클러스터 분석에서는 변수들의 평균을 구하면, 각 연구참여자들의 변수들이 얼마나 평균에 가까운지 측정할 수 있다(=편차). 그렇기에, 분석할 변수들이 연속형이어야한다. 클러스터 분석에 대표적인 사례인 K-means을 생각해보면, 범주형변수로 k-means을 돌리면, 각 범주형변수들의 L2 distance가 잘 측정이 안될 수도 있다. L2은 유클리디언 공간에서의 크기를 의미하기 때문이다[3]. 반면 LCA은 분석할 변수가 범주형이다(최근엔 범주/연속 둘다 쓸 수 있는 모형도 있다).

3.     클러스터분석은 각 연구대상자들이 분석후에 A군인지 ,B군인지, C군인지 등 명확하게 그룹이 결정된다. 반면에 LCA은 확률이 주어지기에 명확히 A,B,C인지는 알수없다. 다만, 각 군에 확률만 알 수 있을 뿐이다.

4.     LCA은 모형학적 군집방식이기에, 잠재계층의 군집수를 알아서 정해준다. 자세히는 군집방식에 parameter로 군집 수가 있으며, 데이터(x)을 이용해 파라미터(Θ)을 찾는 likelihood을 이용해서, 잠재계층의 수를 찾는다. K-means은 반면 K을 연구자가 지정해야한다.

 

Case study


1.     아래는 LCA분석의 결과이다. LCA 분석에서 얼마나 모형이 품질이 있는지 AIC, BIC 등으로 평가한다고 했다. 이 중에 군집이 3개까지 AIC, BIC도 낮아지는 폭이 크다. 이 중에 군집이 3개까지 AIC, BIC도 낮아지는 폭이 크다. 군집에 3개라고 가정하고 분석하면된다. latent class 수를 더 키우면 무조건 낮아진다. 직관적으로 N=100일떄, 각 100개가 독립적인 subgroup이라고 생각하면 제일 잘 맞는 모형이다. 우리는 다 각자의 인생을 살듯이?

https://jkan.or.kr/pdf/10.4040/jkan.2019.49.6.701

 

2. 세 그룹으로 나뉘어진 것을 알았으니, 각 군에 이름을 붙여본다. 이 간호학과 선생님들께서는 Current non-drinkers, Binge drinkers, Problem drinkers 라고 네이밍을 줬다. 첫 행은 각 군에 대한 membership에 대한 확률을 나타낸다. Current non drinker은 대부분 24,417명중에 69%정도는 이 군에 할당될 확률이 있단 말이다. 그리고, 이 군에 있는 사람들은Drink during the pas 30 days할 확률은 0.12라는 말이다. 즉 이 변수("Drink during the pas 30 days")인 카테고리컬이다. 이 변수에 해당되냐 안되냐를 보여준다. 반면 Binge drinkers, Problem drinkers에서는 1.00, 1.00이니 무조건 이 군에 속할려면 최근 30일 이내 술마셔야하는 사람이어야 한다는 것이다.

 

[1] Latent Class Analysis: A Guide to Best Practice

[3] 잠재계층분석기법(Latent Class Analysis)을 활용한 영화 소비자 세분화에 관한 연구

반응형

+ Recent posts