확률변수(Random variables)


사건이 발생할 종류에 원하는 숫자를 대입한 것. 예) 동전 던지기와 같이 앞면이 2번 발생한 경우를 X= 2, 1번 발생한 경우를 X=1라고 할 수 있다. 확률변수는 2가지 종류가 있는데 다음과 같다.

  • 이산확률변수(Discrete random variables): 셀 수 있는 특정한 값으로 구성(값이 유한, finite). 이러한 확률변수에 대한 함수를 확률질량함수(Probability mass function)이라고 부른다.
  • 연속확률변수(Continuous random variables): 연속형이거나 무한한 경우와 같이 셀 수 없는 학률변수. 이러한 확률변수에 대한 함수를 확률밀도함수(probability density function)이라고 부른다.

* 참고로, 확률함수(Random function)란 실험을 계속 했을 때, 결과가 몇번씩 발생했는지 알 수 있는데, 이러한 발생의 확률을 계산하여 함수로 표현 한 것을 의미한다. 이 함수는 확률이 될 수 있는 0~1사이의 확률을 나타내어주는 함수를 의미한다. 유사한 개념으로 확률분포(Probability distribution)은 확률변수에 따라 확률이 어떻게 분포되어있는지를 의미한다. 이러한 확률분포는 확률함수가 추정되어있거나 정의되어있으면, 분포를 파악할 수 있다.


확률함수에 대한 예시를 다음과 같이 들 수 있다.

확률변수와 확률함수와의 관계는 예를 들어 복권을 샀을 때, 꽝아니면 당첨이라고 생각해보자. 당첨 확률이 1/3이며, 3번 샀을 때를 예시를 들어보자. 그럼 사건은 0번 당첨, 1번 당첨 2번 당첨, 3번당첨 해당하고.. 당첨횟수가 확률변수를 의미한다. 그리고 당첨횟수에 대한 확률이 '확률' 이라고 부르고, 이러한 확률을 함수로 당첨횟수(확률변수)에 따른 확률로 일반화하면 '확률함수'이다.


  • 확률 변수의 기대값: 사건에서 발생하는 해당값과 그 사건이 발생할 확률을 곱해서 모두 더한 값. 예를 들어서, 복권에 1등 2등 꽝에 당첨될 확률이 20%, 30%, 50%라고하면, 1등에 해당하는 당첨금과 확률을 곱하고, 2등에 해당하는 당첨금과 확률을 곱하고 꽝은 당첨금이 없으니... 더하나마나이지만 더한 겂이 기대값이다. 수식은 아래와 같다.



  • 확률변수의 분산: 기대값의 특성으로 나타내는 값. 확률변수들이 기대값들로부터 벗어나 있는 정도. 이 말은 기대값에 대해서, 각각의 확률변수가 얼마나 떨어져잇는지를 나타낸다. 위의 예에서, 당첨금이 1만원인데 확률변수의 분산이 크다면, 대박아니면 쪽빡이란 얘기다. 수식으로는 아래와 같다. 

(2)

  • 확률변수의 편차: (2)식에서 루트를 씌우면 된다.





확률분포(Probability distribution)


  확률 변수의 정의는: 하나의 변수가 취할 수 있는 각 값과 그에 대한 확률의 대응관계를 의미한다. 수학적인 정의는 다음과 같다. 변수 x가 취할 수 있는 모든 값이 x1, x2, x3, x4이고, 이에 각각 대응하는 확률이 p1, p2, p3, pn 인 경우, 이 둘의 대응 관계를 X의 확률분포라고 한다. 즉 X에 특정한 값이 들어가면 확률이 튀어나오는(반환)되는 관계를 의미 한다.


위에서 언급했듯이, 확률변수에 따라서 연속형 확률변수와, 이산형 확률변수에 따라서 확률분포의 종류가 달라지는데 다음과 같다. 아래의 그레프를 읽을 때, X축과 Y축에 따라 함수의 의미를 이해해보자.

  • 확률밀도함수(Probability density function, PDF): X는 확률변수를 의미하고 Y는 확률밀도를 의미한다. 이 확률 변수(x)는 특정 값(점)에 대해서 확률이 0이라고 할 수 있다 (식 1). 예를 들어서, 글쓴이의 키가 175.32cm이라고 할 확률이 몇이라고 할 수 있는지를 묻는다면 0이라고 대답해야할 것이다. 175.321cm일 수도 있고, 175.3254872cm일수도 있고, 확률변수가 무한하기 때문에 특정 값에 대해서 0이다. 따라서 아래의 그림처럼 특정 구간(a에서 b까지) 적분하여 확률을 표현할 수 있다. 

 




(source: http://work.thaslwanter.at/Stats/html/statsDistributions.html)

  • 누적분포함수(Cumulative distribution function, CDF): PDF에서 각 구간별로 면적의 누적합이 CDF이다. 아래의 수식에서 F(X)은 CDF을 의미하고, f(x)은 PDF을 의미한다. PDF을 적분을 하면 CDF가 된다. 반대로 CDF을 미분하면 PDF가 나온다. 즉, CDF의 접선의 기울기가 PDF라는 의미이다.

 




확률분포의 모양

이러한 확률분포의 모양을 결정하는 것을 모수(Parameters)라고 하는데, 위치모수(Location parameter), 형상모수(Shape parameter), 척도모수(scale parameter)가 있다. 정규분포의 경우 분포의 평균인 E(X)와 분포의 퍼진정도인 Var(X), 또는 SD(X)을 이용해서 모양을 결정할수 있다.




결합확률분포(Joint probability distribution)


결합확률분포도 각 이산확률변수인지 연속확률변수인지에 따라 두 가지로 분류할 수 있다.  각각 다음과 같이 표기할 수 있다.

  • 이상확률분포:
  • 연속확률분포: 


주변확률분포(Marginal Probability distribution): 결합확률분포를 공부하다보면, 주변확률분포도 같이 언급된다. 이유는 주변확률분포는 결합확률분포를 전제로 하기 때문이라 생각된다. 주변확률분포는 두 개의 변수로 이루어진 결합확률분포를 통해, 하나의 변수로만 이루어진 확률분포를 구하려고하는 것이다. 주로 Summation을 이용해서 나머지 확률을 없애고 하나의 확률만 구하는 방식이다. 즉, 주사위던지기(X), 동전던지기(Y)가 에 대한 결합확률분포가 있다면, 모든 동전던지기의 확률을 더하면 주사위던지기만 나올 것이기 떄문에 합을 통해 주변확률분포를 구한다. 수식으로 표현하면 다음과 같다.


이산확률변수인 경우: 주변확률분포는 주어진 결합확률분포에서  한 확률분포에 대한 분포를 찾기 위함이다. 따라서, 원하는 확률분변수 외의 확률값을 모두 합해주면 된다.(예, X가 취할 수 있는 모든 값을 더한 y의 확률분포)식은 다음과 같다.

연속확률변수인 경우: 마찬가지로 y에 대해서 합을 하기위해서 dy을 하거나, x에 대해서 합을 하기 위해서 dx을 한다.



마찬가지로, CDF의 경우 위의 PDF에 적분(연속형 변수)을 하거나 특정 확률분포에 대해서 합계(이산형)를 해주면된다.

Joint PDF은 x,y, 두 변수에 대해서 Joint CDF미분을 하면 된다. 



Conditional PDF


이산형 변수인 경우

연속형 변수인 경우


독립인 경우



확률 분포의 특징


기대값(Expectation)


상수 배를 할 경우의 특징

E(c)=c

E(aX+b) = aE(X)+b

E(aX+bY) = aE(X) + bE(Y)

E(X|X) = X





분산의 계산 특징



(source: https://slideplayer.com/slide/2617017/)






공분산(Co-variance)


X와 Y가 얼마만큼 많이 변화 하는지를 보는 것. 정의는 아래와 같다.



두 확률 변수 X, Y가 독립일 경우에 E(XY)가 E(X)* E(Y)이고 이는 각각 평균을 의미하므로 Mu_x, Mu_y이므로 0이된다.



* 참고 Correlation : 





Moment (적률)


 확률변수 X의 n승의 기대값

  • E(x)은 1차 모멘트: 평균이고 분포의 Location parameter에 해당한다.
  • E(X) 2차 모멘트. 평균에 대한 2차 모멘트 . 







Basic distribution


Discrete variable인 경우 따를 수 있는 확률함수의 형태


  • Bernouli distribution: 성공 혹은 실패의 형식의 이분(Binary) 한 경우의 사건이 발생하는 경우를 베르누이 시행이라고 하는데, 이런 베르누이 시행에 대한 분포를 베르누이 분포라고 한다.


Bern(x;θ)={θ1θif x=1,if x=0






Binomial distribution(이항분포): 위와 같은 베르누이의 시행에서, K번 시행해서 이벤트가 발생할 확률에 대한 분포가 이항분포라고 한다. 바꿔 말하면 이항분포에서 시행 회수가 1인경우(K=1)가 베르누이 분포랑 같다고 할 수 있다.


Multinomial distribution(다항분포): 이항분포의 경우 사건이 이분형으로 나뉘는데, 다항분포는 이의 일반화이다. 즉 True/False가 아니라 더 많은 종류의 카테고리가 있는 경우를 다항분포라고 할 수 있다.


Posisson distribution(포아송 분포)많은 사건 중에서 특정한 사건이 발생할 가능성이 매우 매우 확률을 갖는 분포이다. 포아송분포는 사건을 n회 시행할 때 특정한 사건이 y회 발생할 확률분포 중에서 사건을 시행한 수인 n이 무한대인 경우에 해당한다. 예를 들어, 차량 통행을 n이라고 하고, 고속도로에서 하루동안 발생하는 교통사고가 발생 사건수이 이에 할 수 있다(n고속도로 차량 통행이 n이 충분히 크다.) 또는 말을 타는 횟수(n) 중 말에서 떨어지는 사고가 발생하는지 횟수( x).

(source: 포아송분포 [Poisson distribution] (교육평가용어사전, 2004. 5. 31., 한국교육평가학회))



 

Continuous variables 인 경우 따를 수 있는 확률함수의 형태

Normal distribution(정규분포)

Uniform distribution: 확률변수 X에 대해서 확률값이 동일한 경우


그외

chi-square distribution (카이제곱 분포)

Student-t distribution

F distribution

Exponential disrtibuion




(source:https://destrudo.tistory.com/16)







정규분포(Normal distribution)


평균에 가장 많이 모여있고, 평균과 분산으로 분포의 특성을 알 수 있다. 

평균을 중심으로 대칭 (생략)




 표준정규분포(Standard normal distribution. z 분포):  평균이 0, 표준편차가 1인 기준으로 표준화한 분포

 (mu: 는 평균, sigma는 편차)



기타



Combination (조합)


Permutation



Laws of large number: N이 커지면, 샘플의 평균이, 모수의 평균과 같아진다. 샘플을 할때 한 집단을 많이 많이 뽑으면, 모수 전체의 평균과 같아진다. 


Central limit theorem: X의 분포와 상관이 없이, n이 커지면, 샘플의 평균X_bar의 분포가 정규분포를 따른다는 것.





* 틀린 부분이나 오류가 있으면 댓글로 달아주시면 감사하겠습니다.





반응형

+ Recent posts