본문 바로가기

Data science/Statistics5

[5분 컷 이해] 임상시험 IIT(intention to treat)이란? 요약 임상시험은 대부분 무작위 선정(Randomization)으로 시험군(case), 대조군(Control)을 나눈다. 이 시험군과 대조군에 중재를 할 때, 시험군 또는 대조군에 속해있는 대상자들이 모종의 이유로 중재를 못받게 되는 상황이 된다(중도 탈락, 중재 전 사망, 치료 불이행). 이 때, 어쩔수없는 이유로 중재를 못받은 사람을 분석에 포함해서 의학적 성과(outcome)을 측정해야하냐 말아야하나 고민되는 시점이 생긴다. IIT은 모종의 이유가 있다 하더라도, 일단 무작위 배정되었으면, 분석에 포함하는 것을 일컫는다(“once randomized, always analyzed”). 반대의 개념으로는 "Per-Protocol"이라고 하며, 중재를 못받은 샘플을 분석에 포함하지 않는 것을 의미한다. .. 2022. 12. 31.
[5분 컷 이해] Latent class analysis (잠재계층분석) 쉬운 이해 요약 LCA(Latent class analysis)은 클러스터링 분석과 유사하게 어느 집단에서 하위그룹이 있는지 알아보는 통계적 방법론이다. 이 하위그룹을 LCA에서는 latent group(=subgroup, 또는 class)라고 한다. 언제사용하나? 내가 분석하고자하는 군을 더 나누고자할 때, LCA은 k-means clustering과 유사하게 연구대상자(cases)을 더 하위 그룹으로 쪼개어 분석하고자할 때, 시행하는 분석방법이다.[1] 모형(LCA model)의 품질평가. 잠재계층의 수를 어떻게 결정하는가? LCA의 모형이 얼마나 데이터셋을 잘 평가하는지는 the likelihood-ratio statistic (G2), Akaike information criterion (AIC), Baye.. 2022. 10. 18.
[생존분석] Cox vs Kaplan-meier 차이 비교 분석방법 적용 특징 문제 수식 Wilcox rank test KM method 각 군의자료가 적은경우 Time to event (발생할 시간)을 예측 Cox proportional 제 3의 교란변수를 검정할 때 생존시간에 대한 별도의 가정이 없음+ 공변량, 각 변수들이 주어졌을 때 식으로 표현이 가능함 = Semi-parametric Time to event (발생할 시간)을 예측 $\lambda(t|X_{i}) = \lambda_{0}(t)exp(X_{i}\beta)$ Cox proportional hazard model 각 i번째 환자(데이터포인트) X가 있다고 하자. $X_{i}=(X_{i1}, ...X_{ip})$ 와 같이 표기할 수 있으며 i번쨰 환자의 각 p라는 변수(공변량, covariate.. 2021. 5. 24.
2. 추론 통계(Inferential statistics) 통계의 두 가지 타입이 있는데, 하나는 기술통계이며 또하나는 추론통계이다. 기술 통계는 주어진 데이터의 분포나 빈도, 평균 등의 통계량을 통해서 데이터를 설명하기 위한 목적이라면, 추론통계의 목적은 주어진 데이터(sample)을 이용하여 모집단의 특성(모수)를 추론하는 것이다. 주로 추론 통계는 가설검정을 이용하여, 모수를 판단한다. 주로, 추론 통계는 1) 가설 설정 -> 2) 데이터 수집 -> 3) 귀무가설의 기각 여부를 결정하는 방법으로 이루어진다. 가설(Hypothesis)가설(Hypothesis): 주어진 사실 혹은 조사하고자 하는 사실이 어떠하다는 주장이나 추측을 의미한다.* 주의: 통계에서 의미하는 가설과 연구가설을 다르다. 연구 가설은 연구의 주제가 될 만한, 가정을 의미하는 것이지만 통계.. 2019. 2. 24.
1. 확률변수와 확률분포 확률변수(Random variables)사건이 발생할 종류에 원하는 숫자를 대입한 것. 예) 동전 던지기와 같이 앞면이 2번 발생한 경우를 X= 2, 1번 발생한 경우를 X=1라고 할 수 있다. 확률변수는 2가지 종류가 있는데 다음과 같다.이산확률변수(Discrete random variables): 셀 수 있는 특정한 값으로 구성(값이 유한, finite). 이러한 확률변수에 대한 함수를 확률질량함수(Probability mass function)이라고 부른다.연속확률변수(Continuous random variables): 연속형이거나 무한한 경우와 같이 셀 수 없는 학률변수. 이러한 확률변수에 대한 함수를 확률밀도함수(probability density function)이라고 부른다. * 참고로, .. 2019. 2. 17.