요약


임상시험은 대부분 무작위 선정(Randomization)으로 시험군(case), 대조군(Control)을 나눈다. 이 시험군과 대조군에 중재를 할 때, 시험군 또는 대조군에 속해있는 대상자들이 모종의 이유로 중재를 못받게 되는 상황이 된다(중도 탈락, 중재 전 사망, 치료 불이행). 이 때, 어쩔수없는 이유로 중재를 못받은 사람을 분석에 포함해서 의학적 성과(outcome)을 측정해야하냐 말아야하나 고민되는 시점이 생긴다. IIT은 모종의 이유가 있다 하더라도, 일단 무작위 배정되었으면, 분석에 포함하는 것을 일컫는다(“once randomized, always analyzed”). 반대의 개념으로는 "Per-Protocol"이라고 하며, 중재를 못받은 샘플을 분석에 포함하지 않는 것을 의미한다.

 

 

Reference

[1] https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5654877/

반응형

요약


LCA(Latent class analysis)은 클러스터링 분석과 유사하게 어느 집단에서 하위그룹이 있는지 알아보는 통계적 방법론이다. 이 하위그룹을 LCA에서는 latent group(=subgroup, 또는 class)라고 한다.

 

언제사용하나? 내가 분석하고자하는 군을 더 나누고자할 때,


LCA은 k-means clustering과 유사하게 연구대상자(cases)을 더 하위 그룹으로 쪼개어 분석하고자할 때, 시행하는 분석방법이다.[1]

 

 

모형(LCA model)의 품질평가. 잠재계층의 수를 어떻게 결정하는가?


LCA의 모형이 얼마나 데이터셋을 잘 평가하는지는 the likelihood-ratio statistic (G2), Akaike information criterion (AIC), Bayesian information criterion (BIC), Adjusted BIC, the log-likelihood, Entropy가 있다. Entropy 값은 클수록, G2 , AIC, BIC, Adjusted BIC와 the log-likelihood 값은 작을수록 모형 이 자료에 적합하다는 것을 의미한다.

K-means clsutering에 보면 inertia라는 값이 있다. Inertia은 클러스터 내의 l2 distnace의 합계이다. 클러스터링의 품질을 평가할 때, 결정요소 K을 inertia로 계산하고, 이 inertia가 툭툭 떨어지다가 잘 안떨어지는 구간을 통상 K로 결정한다. AIC, BIC도 유사하다. AIC, BIC 값이 크게 떨어지다가 감소폭이 떨어지는 잠재계층 수를 연구자가 결정하면된다.

 

 

 

클러스터 분석(Cluster analysis)와의 차이/공통점은 무엇인가?


클러스터 분석과 대표적인 차이를 이해하는 것은 잘 알려진 k-means 알고리즘과 LCA의 차이를 생각해보면 직관적으로 이해가 가능하다.

  LCA K-means
공통점 Person-orient analysis Person-orient analysis
차이점    
  Membership 각 군에 속할 확률이 계산 지정됨.
각 연구대상자가 2군이상 중복되지 않음
  변수 연속형 외 다 가능 연속형
  결측치 결측치에 영향이 별로 없다고 알려짐 많이 영향받음
이상치가 있으면 centroid에 영향줄 수 있음.
  잠재계층의수 Likelihood을 이용하여 AIC, BIC 측정 클러스터링 품질지표(예, 군내 L2거리의 합, 실루엣 계수 등)

 

공통점:

1)     두 분석 모두 “Person-oriented analysis”이다. 각 연구대상자들의 패턴을 비교해서 각 연구대상자들이 어느 그룹에 묶일지를 식별하는 분석방법이다. 이와 반대로, variable centered approach가 있는데, 이건 변수들이 어떤 관계가 있을거다라고 가정하고, 변수들간의 해석을 목적으로하는 분석방법이다. 두 분석 모두 “연구대상자가 어느 그룹으로 할당될지”에 대한 초점이므로 Person-oriented analysis에 해당된다.

차이점:

1.     가정이 다르다. 같은 클러스터(=군)에 있는 연구참여자들이 매우 유사한 변수들을 가지고 있을 것이라 가정한다. 반면, LCA은 잠재계층(latent classes)가 존재하며, 잠재계층의 각 군으로 전 연구대상자들을 설명할 수 있을거라고 가정한다.

2.     클러스터 분석에서는 변수들의 평균을 구하면, 각 연구참여자들의 변수들이 얼마나 평균에 가까운지 측정할 수 있다(=편차). 그렇기에, 분석할 변수들이 연속형이어야한다. 클러스터 분석에 대표적인 사례인 K-means을 생각해보면, 범주형변수로 k-means을 돌리면, 각 범주형변수들의 L2 distance가 잘 측정이 안될 수도 있다. L2은 유클리디언 공간에서의 크기를 의미하기 때문이다[3]. 반면 LCA은 분석할 변수가 범주형이다(최근엔 범주/연속 둘다 쓸 수 있는 모형도 있다).

3.     클러스터분석은 각 연구대상자들이 분석후에 A군인지 ,B군인지, C군인지 등 명확하게 그룹이 결정된다. 반면에 LCA은 확률이 주어지기에 명확히 A,B,C인지는 알수없다. 다만, 각 군에 확률만 알 수 있을 뿐이다.

4.     LCA은 모형학적 군집방식이기에, 잠재계층의 군집수를 알아서 정해준다. 자세히는 군집방식에 parameter로 군집 수가 있으며, 데이터(x)을 이용해 파라미터(Θ)을 찾는 likelihood을 이용해서, 잠재계층의 수를 찾는다. K-means은 반면 K을 연구자가 지정해야한다.

 

Case study


1.     아래는 LCA분석의 결과이다. LCA 분석에서 얼마나 모형이 품질이 있는지 AIC, BIC 등으로 평가한다고 했다. 이 중에 군집이 3개까지 AIC, BIC도 낮아지는 폭이 크다. 이 중에 군집이 3개까지 AIC, BIC도 낮아지는 폭이 크다. 군집에 3개라고 가정하고 분석하면된다. latent class 수를 더 키우면 무조건 낮아진다. 직관적으로 N=100일떄, 각 100개가 독립적인 subgroup이라고 생각하면 제일 잘 맞는 모형이다. 우리는 다 각자의 인생을 살듯이?

https://jkan.or.kr/pdf/10.4040/jkan.2019.49.6.701

 

2. 세 그룹으로 나뉘어진 것을 알았으니, 각 군에 이름을 붙여본다. 이 간호학과 선생님들께서는 Current non-drinkers, Binge drinkers, Problem drinkers 라고 네이밍을 줬다. 첫 행은 각 군에 대한 membership에 대한 확률을 나타낸다. Current non drinker은 대부분 24,417명중에 69%정도는 이 군에 할당될 확률이 있단 말이다. 그리고, 이 군에 있는 사람들은Drink during the pas 30 days할 확률은 0.12라는 말이다. 즉 이 변수("Drink during the pas 30 days")인 카테고리컬이다. 이 변수에 해당되냐 안되냐를 보여준다. 반면 Binge drinkers, Problem drinkers에서는 1.00, 1.00이니 무조건 이 군에 속할려면 최근 30일 이내 술마셔야하는 사람이어야 한다는 것이다.

 

[1] Latent Class Analysis: A Guide to Best Practice

[3] 잠재계층분석기법(Latent Class Analysis)을 활용한 영화 소비자 세분화에 관한 연구

반응형
분석방법 적용 특징 문제 수식
Wilcox rank test        
KM method 각 군의자료가 적은경우   Time to event (발생할 시간)을 예측  
Cox proportional 제 3의 교란변수를 검정할 때 생존시간에 대한 별도의 가정이 없음+
공변량, 각 변수들이 주어졌을 때 식으로 표현이 가능함
= Semi-parametric 
Time to event (발생할 시간)을 예측 $\lambda(t|X_{i}) = \lambda_{0}(t)exp(X_{i}\beta)$

 

 

Cox proportional hazard model


각 i번째 환자(데이터포인트) X가 있다고 하자. $X_{i}=(X_{i1}, ...X_{ip})$ 와 같이 표기할 수 있으며 i번쨰 환자의 각 p라는 변수(공변량, covariates)를 의미한다. Cox비례위험모형은 아래와 같이 작성할 수 있다[식(2)]. 

 

$\lambda(t|X_{i}) = \lambda_{0}(t)exp(\beta_{1}X_{i1}+...+\beta_{p}X_{ip}$ [식2]

 

이를 Matrix 표기($X_{i}$)로 변경하면 흔히 보는 식이다[식3]. 보통 이를 hazard function이라고 한다.

 

 

 

$\lambda(t|X_{i}) = \lambda_{0}(t)exp(X_{i}\beta)$ [식3]

 

위의 식을 들여다보면, X가 커지든 작아지든 t보다는 $\beta$와 연관이 있다.

1) 즉, 시점이 고정이라면(환자들끼리 같은 조건이라면), X가 커질수록 $\beta$가 커져서, 위험이 올라간다고 할 수 있다. 즉 시간에 따라서는 위험에 대한 비율이 일정하게 유지가 된다(비례위험ㄱ자ㅓㅇ)

2) 또한, t에 영향을 받는것은 $\lambda_{0}$만 영향을 받기때문에, 시간이 증가할수록 커진다.

 

 

그리고, 흔히 위험비(harzard ratio, HR)라고 불리는 위험에 대한 비율(집단A에 대한 집단 B에 대한 이벤트 발생에 대한 비율)을 다음과 같이 구할 수 있다. 위의 hazard function을 A집단에 있는 환자a와 B집단에 있는 환자b에 대해서 적용하고자면 아래와 같이 각각 구할 수 있다.

 

$\lambda(t|X_{a}) = \lambda_{0}(t)exp(\beta_{1}X_{i1a}+...+\beta_{p}X_{ia})$

$\lambda(t|X_{b}) = \lambda_{0}(t)exp(\beta_{1}X_{i1a}+...+\beta_{p}X_{ib})$

 

위의 두 식을 나누면 아래와 같은 식을 구할 수 있는데, 보면 $\lambda(t)$은 없어지고, $X, \beta$로만 이뤄져있다. 즉, 시점 T에는 무관하게 위험이 동일하다고 할 수 있다. 

 

$\frac{\lambda(t|X_{a})}{\lambda(t|X_{b})} 
= \frac{exp(\beta_{1}X_{i1a}+...+\beta_{p}X_{ia})}{exp(\beta_{1}X_{i1a}+...+\beta_{p}X_{ib})} 
= exp(\beta(X_{a}-X_{b})) $

 

$HR=exp(\beta(X_{a}-X_{b}) = exp(\beta_{1}(X_{a1}-X_{b1})+...+beta_{p}(X_{ap}-X_{bp}))$을 의미하고, 각 $\beta_{p}$은 $X_{p}$에 따른 위험을 의미한다. 만약 다른 환자 a와 환자b가 모든 변수가 동일하고 $x_{1}$만 다르면 어떻게될까?

$\frac{\lambda(t|X_{a})}{\lambda(t|X_{b})} 

= \frac{h(t|x_{1}=1)}{h(t|x_{1}=0)}
= exp(\beta_{1}(1-0))
= exp(\beta_{1})
$

 

위처럼 모든 $x_{1}$ 변수만 제외하고 모든 변수가 동일하였을때 계수 $\beta_{1}$이 $x_{1}$가 1단위 변화할때마다 $exp(\beta)$한다고 해석하고, 이를 harzard ratio 라고 한다.

 

 

Python3에서는 lifelines패키지가 생존분석을 지원하는데, 시각화가 R보다는 약하다. 아래의 예시는 Cox을 이용한 시각화 및 통계플롯인데, CI값이 안나와서 다소 아쉽지만. python3에서 지원하는게 어딘가 싶다. (https://buildmedia.readthedocs.org/media/pdf/lifelines/latest/lifelines.pdf)

 

from lifelines.datasets import load_rossi
from lifelines import CoxPHFitter

rossi = load_rossi()
cph = CoxPHFitter()
cph.fit(rossi, duration_col='week', event_col='arrest')
cph.print_summary()


cph.plot()

cph.plot_partial_effects_on_outcome(covariates='race', values=list(set(rossi.race)), cmap='coolwarm')

 

반응형

통계의 두 가지 타입이 있는데, 하나는 기술통계이며 또하나는 추론통계이다. 기술 통계는 주어진 데이터의 분포나 빈도, 평균 등의 통계량을 통해서 데이터를 설명하기 위한 목적이라면, 추론통계의 목적은 주어진 데이터(sample)을 이용하여 모집단의 특성(모수)를 추론하는 것이다. 주로 추론 통계는 가설검정을 이용하여, 모수를 판단한다.


주로, 추론 통계는 1) 가설 설정 -> 2) 데이터 수집 -> 3) 귀무가설의 기각 여부를 결정하는 방법으로 이루어진다.




가설(Hypothesis)


가설(Hypothesis): 주어진 사실 혹은 조사하고자 하는 사실이 어떠하다는 주장이나 추측을 의미한다.

* 주의: 통계에서 의미하는 가설과 연구가설을 다르다. 연구 가설은 연구의 주제가 될 만한, 가정을 의미하는 것이지만 통계의 가설은 귀무가설, 대립가설을 의미한다. 예전에, 지도교수님이 헷갈리셨는지 연구가설을 영가설로 해야하는거 아니냐 물어보셨는데, 나도 정확히 몰라서 반박을 하지 못했다. 지금은 공부하여 명확히 알아 소통이 되었지만, 이 부분을 명확히 구분지어 이해할 필요가 있어서 알린다.


- 귀무가설(null hypothesis, 영가설, H0): :귀무(원점으로 돌아간다). 일반적으로 알고있는 사실을 의미하고,  연구를 할 의미가 없는 가설을 의미하기도 한다. 즉, 두 집단의 특정한 차이가 없다라는 경우로 일반적으로 예기한다.

- 대립가설(Alternative hypothesis, anti-hypothesis H1): 어떠한 두 값 간의 차이가 있다는 것을 의미한다. (Not H0) 보통 연구자가 에측하거나 주장하는 것을 의미한다. 이 가설을 귀무가설처럼 직접적으로 수행하기 불가능하여, 귀무가설을 기각함으로써 받아들여지는 가설을 의미한다. 즉, 대립가설의 기각은 있을 수 없다. 보통 우리는 귀무가설을 통해, 두 집단의 차이가 없다(beta0 = beta 1)을 기각하는 방법으로 검증하지, beta0 <> beta 1을 이라고 가설을 설정하고 통계검정을 하지 않기 때문이다.






검정(Testing)


주어진 사실 혹은 조사하고자 하는 사실이 어떠하다는 주장이나 추측

-양측검정(Two-sided test): 조사자하고자 하는 대립가설, 즉 '사실이 아니다'라는 것을 검정하여 귀무가설을 기각하고 대립가설을 채탁하고자 하는 것.


-단측검정(One-side test): 조사자의 목적에 따라, 대립가설을 많거나, 적다의 한 쪽만 살펴보는 것. 어느 수준을 넘어가면 귀무가설(Null hypothesis)을 기각하고, 대립가설을 채택한다. 즉, 다르다라는 의미를 내포한다.


이러한 추정방법은 보통 1) 샘플이 모집단에서 무작위로 추출 되었다고 가정(random sample) -> 2) 모수를 추정 -> 3) 추정식을 이용하는 방법으로 이루어진다.


예를 들어, 요구르트 용기에 평균적으로 담기는 요구르트양을 모른다고 하자. 아마도, 요구르트 용기에 담기는 요구르트양은 50ml이라고 가정할 수 있다. 이러한 가정이 H0이다. (H0: mu = 50). 그 후, 연구자가 무작위로 요구르트를 100개를 뽑았다고하자. 그 요구르트를 우리는 표본(Sample)이라고 한다. 뽑힌 100개의 요구르트의 평균 용량이 55ml였다. 그러면 어떤 요구르트는 48도 있을수도있고 49도 있을수도있고 여러 경우가 있는데 평균 50ml와 55ml가 안전하게 차이가 난다라고 말할 수 있을까? 우연히 연구자가 100개를 뽑았을 때, 좀 많아보이는 요구르트만 뽑았을 수도 있다. 이를 얘기하기 위해서는 뽑힌 요구르트의 평균인 표본평균(X bar)의 확률분포를 알아야한다. 이를 보통 Sampling distribution이라고 한다.





Sampling distribution(표본분포)


위 처럼, 연구자가 가지고 있는 데이터는 한 묶음이지만, 이러한 묶음을 여러번 했다고 가정하자 (같은 사이즈)(실제로는 이러한 분포는 여러번 뽑을 수 없다. 고작 연구자가 가지고 있는 데이터도 구하기 힘든데 이를 여러번 하기란 무리다). 이러한 가정을 하면, 여러번 시행해볼 수 있다고 상상할 수 있다. 그러면 이러한 묶음은 분포로 설명할 수 있는데 이를 Sampling distribution이라고 한다. 즉, 가상의 분포이다. 정확히는 같은 사이즈(N)의 분포를 여러번 시행했을 때의 mean의 분포이다. 우리는 이를 이용해서 H0를 기각 할 것인지 말 것인지를 정하는 것이다. 즉 샘플링 분포를 여러번하면, 모집단을 설명할 수 있기 때문에 이러한 방법을 사용하는 것이다.

 이러한 표본분포의 특징은 모집단에서 갖는 분포가 정규분포라고 가정하면, 그 변수에 대한 샘플링 분포도 정규분포를 갖는다. 그리고 우리가 뽑은 묶음의 분포도 N사이즈 어느정도 크다면, 표본 평균(X bar)도 정규분포를 따른다고 알려져있다(중심극한정리 CLT)


* 모집단: 정규분포 -> 샘플링분포도 정규분포


이러번 시행하는 샘플의 평균을 X bar라고 하면, 이러한 확률변수 X(표본평균들)의 분포의 특징을 다음과 같이 설명할 수 있다. 

이는 가상의 분포를 여러번 평균을 내면 기대값이 모수랑 같아진다는 것이다.


다음은 이러한 평균들의 분산인데, 샘플사이즈가 크면 클수록 모집단 평균으로부터 떨어질 가능성이 적다는 것을 의미한다. 막말로, N을 무한히 많이뽑아서 모집단에 가까워 분산이 거의 없어진다. 


Standard Error(표분오차)는 표본분포의 표준편차를 의미한다.




이를 이용해서, mu가 모집단의 평균일테니, mu와 내가 뽑은 X bar와의 차이를 구해서, 얼마나 떨어져있냐를 계산할 수 있다. 평균이 50ml라고했는데, 내가 뽑은 요구르트는 55ml였다. 100개 뽑는 시행회수를 여러번 한다고 했을 때의 각 묶음의 분포가 표본분포일 것이다. 이러한 표본분포의 평균이 50과 멀면, 실제로 50ml가 아닐 것이라고 판단하는 것이다. 


추정식(Estimator)


위의 사례에서, 우리는 표본평균을 얘기했다. 표본평균은 샘플링한 표본의 평균이다. 우리가 알고 싶어하는 전체의 요구르트용기 1억개(또는 그 이상)과 다르다. 즉, 우리가 알고싶어하는건 모집단의 평균이 50이냐 아니냐가 궁금하기 때문에 이러한 추정을 해야하는데, 이런 모수를 추정하는 식을 추정식(Estimator)라고 한다 .


모수를 추정하는 식은 통계학자들이 여러가지를 개발해 놓았는데, 이러한 추정식 중에 좋은 추정식을 사용해야한다. 이러한 기준은 3가지가 있을 수 있는데 다음과 같다(the Goodness of an Estimator).


- Unbiasedness(비편향): E(추정식) = mu . 평균적으로 추정식을 통해 계산된 추정치가 모수와 같다는 것. (=추정된 값이 틀리지 않았다)

- Consistency

- Efficiency: 분산 (분산이 작을수록 좋다)


모집단 평균에 대한 위의 조건을 만족시키는 예시는 다음과 같다.






통계적 판단


표본 평균(X bar)의 분포를 가지고 우리는 표본분포라고 했다. 이러한 표본분포의 평균(E(X bar)이 내가 가정한 모집단의 평균(mu)이 얼마나 떨어져있는지를 확률적으로 계산할 수 있다. 이를 위해 우리는 기각역(Rejection region)을 설정한다.



기각영역(=기각역)의 크기는 유의수준과 같도록 설정한다. 보통 0.05를 많이 설정하는데, 기각영역이 0.05면 유의수준이 0.05라는 의미이다.


유의수준(Significance level): 1종 오류가 발생할 확률(1종 오류 발생 용인 기준)을 의미한다. 통계적인 가설검정에 사용되는 기준값이다. 일반적으로 유의수준은 alpha로 표기하고, 데이터 수집전에 유의수준 값을 선정한다. 만일 신뢰도의 기준을 95%로 한다면, 0.05값이 유의수준이다.  우리는 통계적인 판단을 할 때, 모수를 추정해서, 내가 일반화할 때, 오류가 발생할 수도있다. 즉, 추정하는 과정자체가 샘플링 바이어스(Sampling bias)가 있어서, 달라질 수 있는데, 이런 통계적 추정을 p-value와 significant level을 이용하여 수치적으로 해결하자는 것이다. 



1종 오류(type I error), 2종 오류(type II error): 1종 오류는 맞는 귀무가설을 틀렸다고 하는 것이며, False positive, 2종 오류는 틀린 귀무가설을 맞다고 하는 것이다(False negative). 예를 들어서, 유방암환자가 mamography을 찍었다고 했을 때, 귀무가설을 암이 없다라고 했을 때, 1종 오류는 암이 있는데 없다고 하는 거고, 2종오류는 암이 없는데, 있다고 하는 것. 보통 우리는 귀무가설을 기각해서(집단간의 차이가 없다라는 말을 기각해서) 차이가 있다라는 것을 발견하는데 그 때 쓰는 alpha가 이 1종 오류의 값을 의미하는 것이다. 

이 alpha을 1종 오류라고 하며, 2종 오류는 beta라고 한다.

즉 alpha 값이 0.05란 말은 귀무가설(집단간의 차이가 없다)라는 것을 alpha로 보여주고, 0.05보다 작으면 차이가 있다라고 생각한다. 이는 귀무가설 0.05보다 작은 수준으로 오류가 있단 말인데, 연구자가 샘플링을 100개 했다고 하면, 우연히 alpha만큼 차이가 안난다는 의미이다.






가설의 검정력(power of hypothesis testing):

귀무가설을 채택해야하지만 귀무가설을 기각하는 경우의 확률: 유의수준 alpha로 표시, 

귀무가설을 기각해야하지만, 귀무가설을 채택하는 경우의 확률: beta로 표시



가설 수립

귀무가설: "모평균이 계산된 특정 값과 동일하다." 라는 가정을 하자. 그러면 H0은 아래와 같이 표시할 수 있다. 그러면, 대립가설은 다르다라는 가설을 할 수 있다.

좌측검정은 연구자가 얻은 샘플의 통계치가 더 작다라는 것이 대립가설이 되고, 우측검정의 경우 그 반대가 된다. 양측검정은 크거다 같다니까, 즉 다르다가 결정이 된다.







모분산을 알때와 모를때의 가설검정 방법


위에서 표본분포를 가지고, 정규화시킨다음에 기각역에 대한 면적을 계산해서 차이가 있는지 없는지를 계산한다. 그런데 Z분포로 정규화시키는 과정에서 다음과 같은 식이 사용되는데, 이때 모분산(모표준편차)를 아는 경우와 모르는 경우가 발생한다.


여기서 시그마(sigma, 모표준편차)를 아는 경우는 그냥 계산해서 사용하면 되는데 이러한 경우는 거의 드물다. 우리가 전수조사를 하는 경우는 극히 드물기 때문이다. 


1) 모분산을 아는 경우는 위의 Z분포를 이용해서, 통계적 구간추론을 하면된다.

2) 그러나 모르는 경우는 t분포를 사용하는데, 다음의 경우로 또 나뉘어 진다

1) 모르는 경우 + 샘플사이즈가 충분히 큰 경우(n>=30)

   이 경우 t분포를 사용하지면, t분포의 샘플사이즈가 충분히 큰 경우 정규분포를 따르기 때문에, 결국 정규분포를 사용할 수 있다.

다만, 모표준편차를 모르기 때문에, 이 대신에 표본표준편차(s)을 대입해서 사용한다 .이렇게되면 t분포로 바뀌게 된다. t분포이지만 형태만 정규분포를 따른다고하기 때문에 정규분포처럼 사용할 수 있다.


 


2) 모르는 경우 + 샘플사이즈가 작은 경우 

 이 경우도 역시 t분포를 사용하지만, 정규분포의 형태처럼 사용할 수없기 때문에, 순수히 t분포를 사용한다. t분포의 구간추정할때 정규분포의 면적값에 해당하는 z=1.96과 같은 구간이 달라질 수 있어 t분포의 예시를 사용해야한다.





Q, 어느 학교 학생들 36명의 키를 표본 조사한 결과 평균이 169.7cm 였다. 만약 이 학생들 키가 정규분포를 따르며 분산이 16일 경우 실제 평균 키에 대한 95%의 신뢰구간을 구하시오. 만약 분산을 모르며 표본분산을 구한 결과가 19.1였으며 평균이 동일하게 169.7cm 였다면 실제 평균 키에 대한 95%의 신뢰구간은 어떠한가? 또한 이 학생들의 키의 분포를 모른다고 할 경우 150명의 표본을 통해 평균 169.7cm, 표본분산 19.1이었다면 평균키의 95% 신뢰구간은 어떠한가?






Pearson Correlation (피어슨 적률상관계수)


우리는 A라는 변수와 B라는 변수가 같이 증가하거나 같이 감소하거나 또는 아무 관계가 없거나 하는 변화를 동시에 보고 싶어하는 경우가 있다. 이런 경우에 측정하고자하는 것이 상관계이다 .구체적으로는 두 변수 X, Y에 대해서 선형적인 관계가 있는지 없는지를 보는 측정치이다. (Pearson's correlation coefficient is the covariance of the two variables divided by the product of their standard deviations)


Pearson correlation의 정의는 다음과 같다.



위에서의 Cov(X,Y)는 Co-variance을 뜻하며, 공분산을 의미한다. 공분산도 이러한 상관관계처럼 X가 변화할 떄 Y가 얼마나 변화하는지 알려주는 측정지표이지만, 나오는 측정치들이 -무한대부터, 무한대이기 때문에 이럴 경우 데이터마다 다르기때문에 구간을 나눠 표준화시킬 방법이 필요하였는데 이가 피어슨 상관계수이다. 그렇기 때문에 공분산에 각각의 X, Y의 표준펀차를 나눠주게된다.




이러한 상관관계도 단점은 모집단에서의 상관관계를 보는 것이지만, 샘플데이터만 있기 때문에 이를 추정하는 방법이 필요하다. 모집단의 피어슨 적률 상관계수를 구하기 위해 모집단의 공분산과 모집단에서의 X의 표준편차, Y의 표준편차를 각각 구해야한다.





반응형

확률변수(Random variables)


사건이 발생할 종류에 원하는 숫자를 대입한 것. 예) 동전 던지기와 같이 앞면이 2번 발생한 경우를 X= 2, 1번 발생한 경우를 X=1라고 할 수 있다. 확률변수는 2가지 종류가 있는데 다음과 같다.

  • 이산확률변수(Discrete random variables): 셀 수 있는 특정한 값으로 구성(값이 유한, finite). 이러한 확률변수에 대한 함수를 확률질량함수(Probability mass function)이라고 부른다.
  • 연속확률변수(Continuous random variables): 연속형이거나 무한한 경우와 같이 셀 수 없는 학률변수. 이러한 확률변수에 대한 함수를 확률밀도함수(probability density function)이라고 부른다.

* 참고로, 확률함수(Random function)란 실험을 계속 했을 때, 결과가 몇번씩 발생했는지 알 수 있는데, 이러한 발생의 확률을 계산하여 함수로 표현 한 것을 의미한다. 이 함수는 확률이 될 수 있는 0~1사이의 확률을 나타내어주는 함수를 의미한다. 유사한 개념으로 확률분포(Probability distribution)은 확률변수에 따라 확률이 어떻게 분포되어있는지를 의미한다. 이러한 확률분포는 확률함수가 추정되어있거나 정의되어있으면, 분포를 파악할 수 있다.


확률함수에 대한 예시를 다음과 같이 들 수 있다.

확률변수와 확률함수와의 관계는 예를 들어 복권을 샀을 때, 꽝아니면 당첨이라고 생각해보자. 당첨 확률이 1/3이며, 3번 샀을 때를 예시를 들어보자. 그럼 사건은 0번 당첨, 1번 당첨 2번 당첨, 3번당첨 해당하고.. 당첨횟수가 확률변수를 의미한다. 그리고 당첨횟수에 대한 확률이 '확률' 이라고 부르고, 이러한 확률을 함수로 당첨횟수(확률변수)에 따른 확률로 일반화하면 '확률함수'이다.


  • 확률 변수의 기대값: 사건에서 발생하는 해당값과 그 사건이 발생할 확률을 곱해서 모두 더한 값. 예를 들어서, 복권에 1등 2등 꽝에 당첨될 확률이 20%, 30%, 50%라고하면, 1등에 해당하는 당첨금과 확률을 곱하고, 2등에 해당하는 당첨금과 확률을 곱하고 꽝은 당첨금이 없으니... 더하나마나이지만 더한 겂이 기대값이다. 수식은 아래와 같다.



  • 확률변수의 분산: 기대값의 특성으로 나타내는 값. 확률변수들이 기대값들로부터 벗어나 있는 정도. 이 말은 기대값에 대해서, 각각의 확률변수가 얼마나 떨어져잇는지를 나타낸다. 위의 예에서, 당첨금이 1만원인데 확률변수의 분산이 크다면, 대박아니면 쪽빡이란 얘기다. 수식으로는 아래와 같다. 

(2)

  • 확률변수의 편차: (2)식에서 루트를 씌우면 된다.





확률분포(Probability distribution)


  확률 변수의 정의는: 하나의 변수가 취할 수 있는 각 값과 그에 대한 확률의 대응관계를 의미한다. 수학적인 정의는 다음과 같다. 변수 x가 취할 수 있는 모든 값이 x1, x2, x3, x4이고, 이에 각각 대응하는 확률이 p1, p2, p3, pn 인 경우, 이 둘의 대응 관계를 X의 확률분포라고 한다. 즉 X에 특정한 값이 들어가면 확률이 튀어나오는(반환)되는 관계를 의미 한다.


위에서 언급했듯이, 확률변수에 따라서 연속형 확률변수와, 이산형 확률변수에 따라서 확률분포의 종류가 달라지는데 다음과 같다. 아래의 그레프를 읽을 때, X축과 Y축에 따라 함수의 의미를 이해해보자.

  • 확률밀도함수(Probability density function, PDF): X는 확률변수를 의미하고 Y는 확률밀도를 의미한다. 이 확률 변수(x)는 특정 값(점)에 대해서 확률이 0이라고 할 수 있다 (식 1). 예를 들어서, 글쓴이의 키가 175.32cm이라고 할 확률이 몇이라고 할 수 있는지를 묻는다면 0이라고 대답해야할 것이다. 175.321cm일 수도 있고, 175.3254872cm일수도 있고, 확률변수가 무한하기 때문에 특정 값에 대해서 0이다. 따라서 아래의 그림처럼 특정 구간(a에서 b까지) 적분하여 확률을 표현할 수 있다. 

 




(source: http://work.thaslwanter.at/Stats/html/statsDistributions.html)

  • 누적분포함수(Cumulative distribution function, CDF): PDF에서 각 구간별로 면적의 누적합이 CDF이다. 아래의 수식에서 F(X)은 CDF을 의미하고, f(x)은 PDF을 의미한다. PDF을 적분을 하면 CDF가 된다. 반대로 CDF을 미분하면 PDF가 나온다. 즉, CDF의 접선의 기울기가 PDF라는 의미이다.

 




확률분포의 모양

이러한 확률분포의 모양을 결정하는 것을 모수(Parameters)라고 하는데, 위치모수(Location parameter), 형상모수(Shape parameter), 척도모수(scale parameter)가 있다. 정규분포의 경우 분포의 평균인 E(X)와 분포의 퍼진정도인 Var(X), 또는 SD(X)을 이용해서 모양을 결정할수 있다.




결합확률분포(Joint probability distribution)


결합확률분포도 각 이산확률변수인지 연속확률변수인지에 따라 두 가지로 분류할 수 있다.  각각 다음과 같이 표기할 수 있다.

  • 이상확률분포:
  • 연속확률분포: 


주변확률분포(Marginal Probability distribution): 결합확률분포를 공부하다보면, 주변확률분포도 같이 언급된다. 이유는 주변확률분포는 결합확률분포를 전제로 하기 때문이라 생각된다. 주변확률분포는 두 개의 변수로 이루어진 결합확률분포를 통해, 하나의 변수로만 이루어진 확률분포를 구하려고하는 것이다. 주로 Summation을 이용해서 나머지 확률을 없애고 하나의 확률만 구하는 방식이다. 즉, 주사위던지기(X), 동전던지기(Y)가 에 대한 결합확률분포가 있다면, 모든 동전던지기의 확률을 더하면 주사위던지기만 나올 것이기 떄문에 합을 통해 주변확률분포를 구한다. 수식으로 표현하면 다음과 같다.


이산확률변수인 경우: 주변확률분포는 주어진 결합확률분포에서  한 확률분포에 대한 분포를 찾기 위함이다. 따라서, 원하는 확률분변수 외의 확률값을 모두 합해주면 된다.(예, X가 취할 수 있는 모든 값을 더한 y의 확률분포)식은 다음과 같다.

연속확률변수인 경우: 마찬가지로 y에 대해서 합을 하기위해서 dy을 하거나, x에 대해서 합을 하기 위해서 dx을 한다.



마찬가지로, CDF의 경우 위의 PDF에 적분(연속형 변수)을 하거나 특정 확률분포에 대해서 합계(이산형)를 해주면된다.

Joint PDF은 x,y, 두 변수에 대해서 Joint CDF미분을 하면 된다. 



Conditional PDF


이산형 변수인 경우

연속형 변수인 경우


독립인 경우



확률 분포의 특징


기대값(Expectation)


상수 배를 할 경우의 특징

E(c)=c

E(aX+b) = aE(X)+b

E(aX+bY) = aE(X) + bE(Y)

E(X|X) = X





분산의 계산 특징



(source: https://slideplayer.com/slide/2617017/)






공분산(Co-variance)


X와 Y가 얼마만큼 많이 변화 하는지를 보는 것. 정의는 아래와 같다.



두 확률 변수 X, Y가 독립일 경우에 E(XY)가 E(X)* E(Y)이고 이는 각각 평균을 의미하므로 Mu_x, Mu_y이므로 0이된다.



* 참고 Correlation : 





Moment (적률)


 확률변수 X의 n승의 기대값

  • E(x)은 1차 모멘트: 평균이고 분포의 Location parameter에 해당한다.
  • E(X) 2차 모멘트. 평균에 대한 2차 모멘트 . 







Basic distribution


Discrete variable인 경우 따를 수 있는 확률함수의 형태


  • Bernouli distribution: 성공 혹은 실패의 형식의 이분(Binary) 한 경우의 사건이 발생하는 경우를 베르누이 시행이라고 하는데, 이런 베르누이 시행에 대한 분포를 베르누이 분포라고 한다.


Bern(x;θ)={θ1θif x=1,if x=0






Binomial distribution(이항분포): 위와 같은 베르누이의 시행에서, K번 시행해서 이벤트가 발생할 확률에 대한 분포가 이항분포라고 한다. 바꿔 말하면 이항분포에서 시행 회수가 1인경우(K=1)가 베르누이 분포랑 같다고 할 수 있다.


Multinomial distribution(다항분포): 이항분포의 경우 사건이 이분형으로 나뉘는데, 다항분포는 이의 일반화이다. 즉 True/False가 아니라 더 많은 종류의 카테고리가 있는 경우를 다항분포라고 할 수 있다.


Posisson distribution(포아송 분포)많은 사건 중에서 특정한 사건이 발생할 가능성이 매우 매우 확률을 갖는 분포이다. 포아송분포는 사건을 n회 시행할 때 특정한 사건이 y회 발생할 확률분포 중에서 사건을 시행한 수인 n이 무한대인 경우에 해당한다. 예를 들어, 차량 통행을 n이라고 하고, 고속도로에서 하루동안 발생하는 교통사고가 발생 사건수이 이에 할 수 있다(n고속도로 차량 통행이 n이 충분히 크다.) 또는 말을 타는 횟수(n) 중 말에서 떨어지는 사고가 발생하는지 횟수( x).

(source: 포아송분포 [Poisson distribution] (교육평가용어사전, 2004. 5. 31., 한국교육평가학회))



 

Continuous variables 인 경우 따를 수 있는 확률함수의 형태

Normal distribution(정규분포)

Uniform distribution: 확률변수 X에 대해서 확률값이 동일한 경우


그외

chi-square distribution (카이제곱 분포)

Student-t distribution

F distribution

Exponential disrtibuion




(source:https://destrudo.tistory.com/16)







정규분포(Normal distribution)


평균에 가장 많이 모여있고, 평균과 분산으로 분포의 특성을 알 수 있다. 

평균을 중심으로 대칭 (생략)




 표준정규분포(Standard normal distribution. z 분포):  평균이 0, 표준편차가 1인 기준으로 표준화한 분포

 (mu: 는 평균, sigma는 편차)



기타



Combination (조합)


Permutation



Laws of large number: N이 커지면, 샘플의 평균이, 모수의 평균과 같아진다. 샘플을 할때 한 집단을 많이 많이 뽑으면, 모수 전체의 평균과 같아진다. 


Central limit theorem: X의 분포와 상관이 없이, n이 커지면, 샘플의 평균X_bar의 분포가 정규분포를 따른다는 것.





* 틀린 부분이나 오류가 있으면 댓글로 달아주시면 감사하겠습니다.





반응형

+ Recent posts