통계의 두 가지 타입이 있는데, 하나는 기술통계이며 또하나는 추론통계이다. 기술 통계는 주어진 데이터의 분포나 빈도, 평균 등의 통계량을 통해서 데이터를 설명하기 위한 목적이라면, 추론통계의 목적은 주어진 데이터(sample)을 이용하여 모집단의 특성(모수)를 추론하는 것이다. 주로 추론 통계는 가설검정을 이용하여, 모수를 판단한다.
주로, 추론 통계는 1) 가설 설정 -> 2) 데이터 수집 -> 3) 귀무가설의 기각 여부를 결정하는 방법으로 이루어진다.
가설(Hypothesis)
가설(Hypothesis): 주어진 사실 혹은 조사하고자 하는 사실이 어떠하다는 주장이나 추측을 의미한다.
* 주의: 통계에서 의미하는 가설과 연구가설을 다르다. 연구 가설은 연구의 주제가 될 만한, 가정을 의미하는 것이지만 통계의 가설은 귀무가설, 대립가설을 의미한다. 예전에, 지도교수님이 헷갈리셨는지 연구가설을 영가설로 해야하는거 아니냐 물어보셨는데, 나도 정확히 몰라서 반박을 하지 못했다. 지금은 공부하여 명확히 알아 소통이 되었지만, 이 부분을 명확히 구분지어 이해할 필요가 있어서 알린다.
- 귀무가설(null hypothesis, 영가설, H0): :귀무(원점으로 돌아간다). 일반적으로 알고있는 사실을 의미하고, 연구를 할 의미가 없는 가설을 의미하기도 한다. 즉, 두 집단의 특정한 차이가 없다라는 경우로 일반적으로 예기한다.
- 대립가설(Alternative hypothesis, anti-hypothesis H1): 어떠한 두 값 간의 차이가 있다는 것을 의미한다. (Not H0) 보통 연구자가 에측하거나 주장하는 것을 의미한다. 이 가설을 귀무가설처럼 직접적으로 수행하기 불가능하여, 귀무가설을 기각함으로써 받아들여지는 가설을 의미한다. 즉, 대립가설의 기각은 있을 수 없다. 보통 우리는 귀무가설을 통해, 두 집단의 차이가 없다(beta0 = beta 1)을 기각하는 방법으로 검증하지, beta0 <> beta 1을 이라고 가설을 설정하고 통계검정을 하지 않기 때문이다.
검정(Testing)
주어진 사실 혹은 조사하고자 하는 사실이 어떠하다는 주장이나 추측
-양측검정(Two-sided test): 조사자하고자 하는 대립가설, 즉 '사실이 아니다'라는 것을 검정하여 귀무가설을 기각하고 대립가설을 채탁하고자 하는 것.
-단측검정(One-side test): 조사자의 목적에 따라, 대립가설을 많거나, 적다의 한 쪽만 살펴보는 것. 어느 수준을 넘어가면 귀무가설(Null hypothesis)을 기각하고, 대립가설을 채택한다. 즉, 다르다라는 의미를 내포한다.
이러한 추정방법은 보통 1) 샘플이 모집단에서 무작위로 추출 되었다고 가정(random sample) -> 2) 모수를 추정 -> 3) 추정식을 이용하는 방법으로 이루어진다.
예를 들어, 요구르트 용기에 평균적으로 담기는 요구르트양을 모른다고 하자. 아마도, 요구르트 용기에 담기는 요구르트양은 50ml이라고 가정할 수 있다. 이러한 가정이 H0이다. (H0: mu = 50). 그 후, 연구자가 무작위로 요구르트를 100개를 뽑았다고하자. 그 요구르트를 우리는 표본(Sample)이라고 한다. 뽑힌 100개의 요구르트의 평균 용량이 55ml였다. 그러면 어떤 요구르트는 48도 있을수도있고 49도 있을수도있고 여러 경우가 있는데 평균 50ml와 55ml가 안전하게 차이가 난다라고 말할 수 있을까? 우연히 연구자가 100개를 뽑았을 때, 좀 많아보이는 요구르트만 뽑았을 수도 있다. 이를 얘기하기 위해서는 뽑힌 요구르트의 평균인 표본평균(X bar)의 확률분포를 알아야한다. 이를 보통 Sampling distribution이라고 한다.
Sampling distribution(표본분포)
위 처럼, 연구자가 가지고 있는 데이터는 한 묶음이지만, 이러한 묶음을 여러번 했다고 가정하자 (같은 사이즈)(실제로는 이러한 분포는 여러번 뽑을 수 없다. 고작 연구자가 가지고 있는 데이터도 구하기 힘든데 이를 여러번 하기란 무리다). 이러한 가정을 하면, 여러번 시행해볼 수 있다고 상상할 수 있다. 그러면 이러한 묶음은 분포로 설명할 수 있는데 이를 Sampling distribution이라고 한다. 즉, 가상의 분포이다. 정확히는 같은 사이즈(N)의 분포를 여러번 시행했을 때의 mean의 분포이다. 우리는 이를 이용해서 H0를 기각 할 것인지 말 것인지를 정하는 것이다. 즉 샘플링 분포를 여러번하면, 모집단을 설명할 수 있기 때문에 이러한 방법을 사용하는 것이다.
이러한 표본분포의 특징은 모집단에서 갖는 분포가 정규분포라고 가정하면, 그 변수에 대한 샘플링 분포도 정규분포를 갖는다. 그리고 우리가 뽑은 묶음의 분포도 N사이즈 어느정도 크다면, 표본 평균(X bar)도 정규분포를 따른다고 알려져있다(중심극한정리 CLT)
* 모집단: 정규분포 -> 샘플링분포도 정규분포
이러번 시행하는 샘플의 평균을 X bar라고 하면, 이러한 확률변수 X(표본평균들)의 분포의 특징을 다음과 같이 설명할 수 있다.
이는 가상의 분포를 여러번 평균을 내면 기대값이 모수랑 같아진다는 것이다.
다음은 이러한 평균들의 분산인데, 샘플사이즈가 크면 클수록 모집단 평균으로부터 떨어질 가능성이 적다는 것을 의미한다. 막말로, N을 무한히 많이뽑아서 모집단에 가까워 분산이 거의 없어진다.
Standard Error(표분오차)는 표본분포의 표준편차를 의미한다.
이를 이용해서, mu가 모집단의 평균일테니, mu와 내가 뽑은 X bar와의 차이를 구해서, 얼마나 떨어져있냐를 계산할 수 있다. 평균이 50ml라고했는데, 내가 뽑은 요구르트는 55ml였다. 100개 뽑는 시행회수를 여러번 한다고 했을 때의 각 묶음의 분포가 표본분포일 것이다. 이러한 표본분포의 평균이 50과 멀면, 실제로 50ml가 아닐 것이라고 판단하는 것이다.
추정식(Estimator)
위의 사례에서, 우리는 표본평균을 얘기했다. 표본평균은 샘플링한 표본의 평균이다. 우리가 알고 싶어하는 전체의 요구르트용기 1억개(또는 그 이상)과 다르다. 즉, 우리가 알고싶어하는건 모집단의 평균이 50이냐 아니냐가 궁금하기 때문에 이러한 추정을 해야하는데, 이런 모수를 추정하는 식을 추정식(Estimator)라고 한다 .
모수를 추정하는 식은 통계학자들이 여러가지를 개발해 놓았는데, 이러한 추정식 중에 좋은 추정식을 사용해야한다. 이러한 기준은 3가지가 있을 수 있는데 다음과 같다(the Goodness of an Estimator).
- Unbiasedness(비편향): E(추정식) = mu . 평균적으로 추정식을 통해 계산된 추정치가 모수와 같다는 것. (=추정된 값이 틀리지 않았다)
- Consistency
- Efficiency: 분산 (분산이 작을수록 좋다)
모집단 평균에 대한 위의 조건을 만족시키는 예시는 다음과 같다.
통계적 판단
표본 평균(X bar)의 분포를 가지고 우리는 표본분포라고 했다. 이러한 표본분포의 평균(E(X bar)이 내가 가정한 모집단의 평균(mu)이 얼마나 떨어져있는지를 확률적으로 계산할 수 있다. 이를 위해 우리는 기각역(Rejection region)을 설정한다.
기각영역(=기각역)의 크기는 유의수준과 같도록 설정한다. 보통 0.05를 많이 설정하는데, 기각영역이 0.05면 유의수준이 0.05라는 의미이다.
유의수준(Significance level): 1종 오류가 발생할 확률(1종 오류 발생 용인 기준)을 의미한다. 통계적인 가설검정에 사용되는 기준값이다. 일반적으로 유의수준은 alpha로 표기하고, 데이터 수집전에 유의수준 값을 선정한다. 만일 신뢰도의 기준을 95%로 한다면, 0.05값이 유의수준이다. 우리는 통계적인 판단을 할 때, 모수를 추정해서, 내가 일반화할 때, 오류가 발생할 수도있다. 즉, 추정하는 과정자체가 샘플링 바이어스(Sampling bias)가 있어서, 달라질 수 있는데, 이런 통계적 추정을 p-value와 significant level을 이용하여 수치적으로 해결하자는 것이다.
1종 오류(type I error), 2종 오류(type II error): 1종 오류는 맞는 귀무가설을 틀렸다고 하는 것이며, False positive, 2종 오류는 틀린 귀무가설을 맞다고 하는 것이다(False negative). 예를 들어서, 유방암환자가 mamography을 찍었다고 했을 때, 귀무가설을 암이 없다라고 했을 때, 1종 오류는 암이 있는데 없다고 하는 거고, 2종오류는 암이 없는데, 있다고 하는 것. 보통 우리는 귀무가설을 기각해서(집단간의 차이가 없다라는 말을 기각해서) 차이가 있다라는 것을 발견하는데 그 때 쓰는 alpha가 이 1종 오류의 값을 의미하는 것이다.
이 alpha을 1종 오류라고 하며, 2종 오류는 beta라고 한다.
즉 alpha 값이 0.05란 말은 귀무가설(집단간의 차이가 없다)라는 것을 alpha로 보여주고, 0.05보다 작으면 차이가 있다라고 생각한다. 이는 귀무가설 0.05보다 작은 수준으로 오류가 있단 말인데, 연구자가 샘플링을 100개 했다고 하면, 우연히 alpha만큼 차이가 안난다는 의미이다.
가설의 검정력(power of hypothesis testing):
귀무가설을 채택해야하지만 귀무가설을 기각하는 경우의 확률: 유의수준 alpha로 표시,
귀무가설을 기각해야하지만, 귀무가설을 채택하는 경우의 확률: beta로 표시
가설 수립
귀무가설: "모평균이 계산된 특정 값과 동일하다." 라는 가정을 하자. 그러면 H0은 아래와 같이 표시할 수 있다. 그러면, 대립가설은 다르다라는 가설을 할 수 있다.
좌측검정은 연구자가 얻은 샘플의 통계치가 더 작다라는 것이 대립가설이 되고, 우측검정의 경우 그 반대가 된다. 양측검정은 크거다 같다니까, 즉 다르다가 결정이 된다.
모분산을 알때와 모를때의 가설검정 방법
위에서 표본분포를 가지고, 정규화시킨다음에 기각역에 대한 면적을 계산해서 차이가 있는지 없는지를 계산한다. 그런데 Z분포로 정규화시키는 과정에서 다음과 같은 식이 사용되는데, 이때 모분산(모표준편차)를 아는 경우와 모르는 경우가 발생한다.
여기서 시그마(sigma, 모표준편차)를 아는 경우는 그냥 계산해서 사용하면 되는데 이러한 경우는 거의 드물다. 우리가 전수조사를 하는 경우는 극히 드물기 때문이다.
1) 모분산을 아는 경우는 위의 Z분포를 이용해서, 통계적 구간추론을 하면된다.
2) 그러나 모르는 경우는 t분포를 사용하는데, 다음의 경우로 또 나뉘어 진다
1) 모르는 경우 + 샘플사이즈가 충분히 큰 경우(n>=30)
이 경우 t분포를 사용하지면, t분포의 샘플사이즈가 충분히 큰 경우 정규분포를 따르기 때문에, 결국 정규분포를 사용할 수 있다.
다만, 모표준편차를 모르기 때문에, 이 대신에 표본표준편차(s)을 대입해서 사용한다 .이렇게되면 t분포로 바뀌게 된다. t분포이지만 형태만 정규분포를 따른다고하기 때문에 정규분포처럼 사용할 수 있다.
2) 모르는 경우 + 샘플사이즈가 작은 경우
이 경우도 역시 t분포를 사용하지만, 정규분포의 형태처럼 사용할 수없기 때문에, 순수히 t분포를 사용한다. t분포의 구간추정할때 정규분포의 면적값에 해당하는 z=1.96과 같은 구간이 달라질 수 있어 t분포의 예시를 사용해야한다.
Q, 어느 학교 학생들 36명의 키를 표본 조사한 결과 평균이 169.7cm 였다. 만약 이 학생들 키가 정규분포를 따르며 분산이 16일 경우 실제 평균 키에 대한 95%의 신뢰구간을 구하시오. 만약 분산을 모르며 표본분산을 구한 결과가 19.1였으며 평균이 동일하게 169.7cm 였다면 실제 평균 키에 대한 95%의 신뢰구간은 어떠한가? 또한 이 학생들의 키의 분포를 모른다고 할 경우 150명의 표본을 통해 평균 169.7cm, 표본분산 19.1이었다면 평균키의 95% 신뢰구간은 어떠한가?
Pearson Correlation (피어슨 적률상관계수)
우리는 A라는 변수와 B라는 변수가 같이 증가하거나 같이 감소하거나 또는 아무 관계가 없거나 하는 변화를 동시에 보고 싶어하는 경우가 있다. 이런 경우에 측정하고자하는 것이 상관계이다 .구체적으로는 두 변수 X, Y에 대해서 선형적인 관계가 있는지 없는지를 보는 측정치이다. (Pearson's correlation coefficient is the covariance of the two variables divided by the product of their standard deviations)
Pearson correlation의 정의는 다음과 같다.
위에서의 Cov(X,Y)는 Co-variance을 뜻하며, 공분산을 의미한다. 공분산도 이러한 상관관계처럼 X가 변화할 떄 Y가 얼마나 변화하는지 알려주는 측정지표이지만, 나오는 측정치들이 -무한대부터, 무한대이기 때문에 이럴 경우 데이터마다 다르기때문에 구간을 나눠 표준화시킬 방법이 필요하였는데 이가 피어슨 상관계수이다. 그렇기 때문에 공분산에 각각의 X, Y의 표준펀차를 나눠주게된다.
이러한 상관관계도 단점은 모집단에서의 상관관계를 보는 것이지만, 샘플데이터만 있기 때문에 이를 추정하는 방법이 필요하다. 모집단의 피어슨 적률 상관계수를 구하기 위해 모집단의 공분산과 모집단에서의 X의 표준편차, Y의 표준편차를 각각 구해야한다.
'Data science > Statistics' 카테고리의 다른 글
[5분 컷 이해] 임상시험 IIT(intention to treat)이란? (0) | 2022.12.31 |
---|---|
[5분 컷 이해] Latent class analysis (잠재계층분석) 쉬운 이해 (2) | 2022.10.18 |
[생존분석] Cox vs Kaplan-meier 차이 비교 (0) | 2021.05.24 |
1. 확률변수와 확률분포 (0) | 2019.02.17 |