바텍은 덴탈이미징 의료기기 판매 회사이다. 주 품목은 3D, 2D x-ray이다. 의료기기이다보니, 의료기기의 산업특성을 띈다.


  1. 산업분석
    1. 의료기기 산업특성: 다품종 소량생산. 미인허가 측면에서 국가간 인증제도가 상이하다. 교육에서는 비관세이긴하나, 미국 FDA의 인허가에 소요되는 기간이 7.2개월 중국은 13개월 정도걸린다고 한다. 즉, 개발하고, 해외로 수출하기 위한 장벽이 비교적 큰 산업구조이긴하다. 반대로 말하면 바텍이 가지고있는 의료기기 포지션은 다른 회사들이 진입하기엔 이 이정도의 기간이 필요하다고 생각 할 수 있다. 따라서, 실제 시장 진입을 위한 기간은 신규 회사들이 진입하기가 더 어려울 수 있다.
    2. 인지도와 브랜드 파워: 의료기기 특성상, 마케팅 장벽과 충성도가 높다. 의료기기는 의료진들이 선택하는데 있어, 학회나 본인의 수련기관에 사용했던 익숙한 제품을 선호할 수도 있고, 인체에게 가하는 제품특성상 인지도가 없는 제품들을 사용하는것에는 심리적인 부담이 있다.
    3. 연구개발: R&D  기간이 3년에서 5년정도 걸린다. 반대로, 회수기간이 3~5년이상 걸린다는 이야기이다.
  2. 덴탈 이미징 사업: 반도체, 기구, 영상처리, 소프트웨어 등 첨단 IT기술력을 보유해야 가능한 산업이다. 치과용 영상기기는 임플란트 등 고수익을 창출하는 고급진료에 대한 수요가 증가함에 따라, 수요에 대응하기 위한 병의원간 경쟁이 심화되면서 이에 따른 차별적인 의료기기가 필요한데, 경쟁력 요소로 고가 진단 진료의 장비의 도입이 지속적으로 증대된다.
  3. 시장여건
    1. 세계 치과진료 시장환경: 치과진료의 경우 시장은 소득수준과 연관이 있다. 글로벌하게는 개발도상국에서도 점차 확대되고 있다. 고소득일 수록 예방 진료의 혜택으로 치과진료에 대한 수요가 증가하고, 저연령층에서도 수요가 형성되어있다.
    2. 인구고령화: 기본적인 치과진료의 수요는 55세 이상이다. 한국, 일본 중국 등 인구 고령화가 급숙도로 진행된다. 우리나라만 봐도 조만간 고령층이 인구의 다수가 될 것이다. 따라서, 중년, 고령층이 지배적인 인구구조가 될 테인데, 이에 따른 치과진료가 많이 예상된다. 유사하게 임플란트의 글로벌 시장규모는 2023년까지 연평균 8.2%가 상승한다고 예상되어있다.[레퍼런스 추가 조사필요]. 성장 요인은 인구고령화, 소득 상승, 치과의 수 증가 등인데, 한국은 치과의사의 경우 보합수준이다. 임플란트 시술비가 하락하거나, 한국의 경우 보험의 급여화 등도 회사에 수혜가 될 수 있다.
    3. 국내 치과진료 시장 환경: 병의원 방사선촬영 장치는 4만 4천대 (2016년). 주로 개인병원에 형성되어있다. 치과병의원수는 17,300개 (2017)년인데, 관련 치과종사다또한 5년간 3%의 완만한 추세로 증가하고있기는 하다[출처: 복지부). 치과 개원의가 많아질수록 바텍이 얻을 수 있는 시장규모가 커지긴하지만, 완만한 추세라서 크게 도움은 되지 않을 것으로 예상은 한다. 방사선 촬영장치의 진단이 필요한 임플란트 시장은 계속 증가하기 때문에, 원래 방사선촬영장치가 좋지 않았던 병의원 같은 경우에는 수익성향상을 위해, 임플란트 시술을 하려고 하고, 이에 대한 간접적인 혜택은 기대해볼 수 있다. 참고로 국내는 임플란트 보급율이 1위이다.
  4. 성장성
    1. 성장요인: 고급 친과진료의 수요증가와 동반성장. 또한, 병의원 간의 경쟁 심화로 인한 동반성장이 가능하다. 현재 중동진출 법인을 냈고, 중동쪽 진출도 가능해보인다. 유럽, 아시아-태평양 지역의 성장율은 증가고 있다.
  5. 제약 요인:
    1. 시장의 성숙기: 북미/유럽에서는 가격 경쟁이 가속화되서 수익성이 저하될 수도 있다. 아시아에서는 로우엔드, 하이엔드 장비에서 품질 경쟁이 일어나긴하다. 
    2. 경기 변동에 따른 산업의 특성: 경기 변동에 따른 상관성은 낮다. 업종 베타는 0.82이다.
  6. 치과의사 & 국내 치과진료 관련 정보: (2018조사). 국내는 치과의사가 60% 치과의원에 근무하는 형태이다. (대한치과의하협회 내부자료 2005)... 또한 2020년 면허인력은은 2015년 29,000명에서 2020년 33700명으로 예상한다. 완만하게 증가하긴하다. (보건사회연구원 BHPr 모형). 하지만 국시원에서 면허 응시 현황을 보았을 때는, 2012년에 비해서 2016년은 뚜렷한 증가추이는 보이지 않았다. 


하지만 치과치료 수요가 발생시키는 진료비 현황에서는 2011년 13,800억, 15,000억, 18,900억으로 수요측면에서는 확실히 증가추이를 보이는 것으로 파악됨.(2018년까지의 자료는 파악중). 특히 2013년 스케일링과 노인 부분틀니의 건강보험 적용으로 수요가 크게 확대

 

치과진료비 측면에서는 인구학적으로 노령인구가 큰 수요의 측면을 차지하는 것으로 파악됨. 20대보다 30대, 30대보다 40대가 치과진료비에 대한 수요가 크게증가함. 특히 40대부터 치과진료비가 크기 증가하며, 50대에 진료비가 피크로 증가함. 참고로 현재 우리나라(2017년 기준) 평균연령은 41세. (인구비율은 50~59세가 가장 많다.)


아래는 지급되는 건강보험료 중 치과진료의 추이이다.


아래는 건강보험료 중  연령병 치과친료의 분포이다.




일반정보:92년 계측장비 제조. 2002년에는 치과용 파노라마 X-ray, CT 제조로 전환. 2006년에 코스닥 상장. 2008년에는 디지털 엑스레이 센서를 추가하여 판매. 

사업내용:

덴탈 이미징 사업을 위한 개발/제조/판매를 통합운영. 연결회사는 본사를 거점으로 14개의 국내 및 해외법인으로 구성된 집단.


지배구조는 바텍이우이홀딩스가 지주회사로 중간에 바텍, 바텍아래에 바텍코리아, 해외법인, 레이언스가 포함되어잇다. 참고로 레이언스는 바텍의 종속회사였다가 분리되었다. 회계상에서도 분리되고, 대신에 기타 이익으로 포함되어있다 (지분법). 아래를 보면 가지고 있는 회사들을 요약한 것이다. 바텍 차이나는 제조업도 같이 하고있다.

회사명

주요사업

자산

Vatech Vietnam

의료기기 도소매

285,345

㈜바텍코리아

의료기기 도소매

16,031,587

Vatech Global Asia HQ SDN BHD

의료기기 도소매

2,000,551

Vatech Brasil Equip de Odont &Medicina, IMP, DITRIB

의료기기 도소매

3,906,058

Vatech Medical Co., Ltd.

의료기기 도소매

6,876,235

Vatech Medical Pty Ltd.

의료기기 도소매

1,569,039

Vatech Global Mexico S DE RL DE CV

의료기기 도소매

5,280,724

Vatech China Co., Ltd.

의료기기 제조 및 판매

5,457,707

Vatech India Private Limited

의료기기 도소매

319,672

Vatech Global (HK) Limited

의료기기 도소매

76,139

VATECH Corp LLC

의료기기 도소매

5,772,066

VATECH Global France Sarl

의료기기 도소매

6,766,291

Vatech Dental Manufacturing Ltd.

의료기기 도소매

1,999,143

Vatech America Inc.

의료기기 도소매

26,132,046



바텍은 해외 현지법인에 대한 유통망 확보는 어떻게 하고있나? 

시장(Region)별 제품 납품 특성

1. 선진국(유럽/미국)같은 경우는 고가제 품

2. 이머징 마켓은 저가제품 납품: 주로 3D보다는 2D로 납품. Handheld 제품들이 것으로 파악 됨.


주요제품: 덴탈 엑스레이 이미징부문의 경우 1) intra-oral sensor, 2) High end radiation으로 나뉜다. 또는 크게는 2D 제품, 3D제품, 구강내센서로 나뉜다. 임플란트와 같이 입체적인 시술이 필요한 경우가 3D제품군의 사용이 필요하고, 그 외에는 2D가 사용되고 있다. 구강내 센서는 구강내에 일시적으로 부착하여 2~4개정도를 촬영할 수 있는 x-ray 촬영시스템이다.

 2D는 Panoramic 과 Panoramic-cephalometric3으로 나뉨. 일반 panoramic은 이머징마켓이나 일반진료 수요가 높은 곳에서 가격에 유리하기에 사용되며, panoramic-cephaometric은 교정치료를 위해 두부 넓게 찍고, 두부의 단면을 찍는 촬영이다.

 3D는 과거 CT/파노라마/세팔로메트릭 촬영을 위해서는 독립적인 장비가 필요했으나 05년 당사에서 최초로 all in one 장비를 출시. 13년 런칭한 장비로는 유럽, 북미로 선진시장으로 진입중이고, 촬영시간이 5.9초로 피폭량이 감소한 것에 대해 시장의 관심이 많은편이다.

 

원자재: 원자재 비율의 대부분은 Sensor(43%), 조립기구(Coumn Assemble, 26%)이다. 원자재 가격의 경우, sensor는 15년부터 18년까지 가격추이가 낮아지는 것을 확인 할 수 있다. 이 센서의 대부분은 레이언스에서 판매하는 것으로 파악된다,



기타 질문

Q&A 1. [지분관련] 2017년 1분기중 바텍이 레이언스 지분을 매각한 이유는 무엇가요? 

-> 홀딩스체계(지주)로 경영을 위한 독립하였다. 레이언스는 detector 개발/제조/판매 회사인데 바텍과 독립적인 경영을 위해서 족속회사에서 연결회사로 변경하고, 경영의 체계를 변경하기위해 바텍홀딩스 설립하면서 분리하였다.

->Re: 그렇다면 홀딩스 체계로 경영을 한 것에 대한 이점은 무엇인가요?

 

 

판관비 비율이 매출액의 20%정도인데, 보통이부분에 대한 사용은 어떤것들로 이루어지는지?

2018년 판관비가 증가하나?

 

Q&A 2. 산업소개에서, ‘병의원의 차별적인 경쟁력 요소로 고가진단 진료의 장비의 도입이 지속적으로 증대된다.’ 근거가 궁금하네요.

원자재 재료 가격 변동추이를 보면, 원자재 국내 가격이 모두 지속적으로 하락하던데.. 국내 원자재사들은 경쟁이 포화되는 것? 

 

Q. [신규 시설 투자] 1Q에 생산라인과 물류시설 투자를 위한 신규 시설이 완료되었는데, 이 공장 건설을 하기 위한 재원은 어떻게 조달한 것인가요?

-> 차입금을 줄이려고 사내 유보금을 사용하였습니다.

 

Q. 제품 교환 주기는 어느정도인가요?

 대략 년수로는 5년. 치과의원보다 병원급에서는 많이 촬영하기 때문에, 교환을 하는 편이라고 함.


반응형

통계의 두 가지 타입이 있는데, 하나는 기술통계이며 또하나는 추론통계이다. 기술 통계는 주어진 데이터의 분포나 빈도, 평균 등의 통계량을 통해서 데이터를 설명하기 위한 목적이라면, 추론통계의 목적은 주어진 데이터(sample)을 이용하여 모집단의 특성(모수)를 추론하는 것이다. 주로 추론 통계는 가설검정을 이용하여, 모수를 판단한다.


주로, 추론 통계는 1) 가설 설정 -> 2) 데이터 수집 -> 3) 귀무가설의 기각 여부를 결정하는 방법으로 이루어진다.




가설(Hypothesis)


가설(Hypothesis): 주어진 사실 혹은 조사하고자 하는 사실이 어떠하다는 주장이나 추측을 의미한다.

* 주의: 통계에서 의미하는 가설과 연구가설을 다르다. 연구 가설은 연구의 주제가 될 만한, 가정을 의미하는 것이지만 통계의 가설은 귀무가설, 대립가설을 의미한다. 예전에, 지도교수님이 헷갈리셨는지 연구가설을 영가설로 해야하는거 아니냐 물어보셨는데, 나도 정확히 몰라서 반박을 하지 못했다. 지금은 공부하여 명확히 알아 소통이 되었지만, 이 부분을 명확히 구분지어 이해할 필요가 있어서 알린다.


- 귀무가설(null hypothesis, 영가설, H0): :귀무(원점으로 돌아간다). 일반적으로 알고있는 사실을 의미하고,  연구를 할 의미가 없는 가설을 의미하기도 한다. 즉, 두 집단의 특정한 차이가 없다라는 경우로 일반적으로 예기한다.

- 대립가설(Alternative hypothesis, anti-hypothesis H1): 어떠한 두 값 간의 차이가 있다는 것을 의미한다. (Not H0) 보통 연구자가 에측하거나 주장하는 것을 의미한다. 이 가설을 귀무가설처럼 직접적으로 수행하기 불가능하여, 귀무가설을 기각함으로써 받아들여지는 가설을 의미한다. 즉, 대립가설의 기각은 있을 수 없다. 보통 우리는 귀무가설을 통해, 두 집단의 차이가 없다(beta0 = beta 1)을 기각하는 방법으로 검증하지, beta0 <> beta 1을 이라고 가설을 설정하고 통계검정을 하지 않기 때문이다.






검정(Testing)


주어진 사실 혹은 조사하고자 하는 사실이 어떠하다는 주장이나 추측

-양측검정(Two-sided test): 조사자하고자 하는 대립가설, 즉 '사실이 아니다'라는 것을 검정하여 귀무가설을 기각하고 대립가설을 채탁하고자 하는 것.


-단측검정(One-side test): 조사자의 목적에 따라, 대립가설을 많거나, 적다의 한 쪽만 살펴보는 것. 어느 수준을 넘어가면 귀무가설(Null hypothesis)을 기각하고, 대립가설을 채택한다. 즉, 다르다라는 의미를 내포한다.


이러한 추정방법은 보통 1) 샘플이 모집단에서 무작위로 추출 되었다고 가정(random sample) -> 2) 모수를 추정 -> 3) 추정식을 이용하는 방법으로 이루어진다.


예를 들어, 요구르트 용기에 평균적으로 담기는 요구르트양을 모른다고 하자. 아마도, 요구르트 용기에 담기는 요구르트양은 50ml이라고 가정할 수 있다. 이러한 가정이 H0이다. (H0: mu = 50). 그 후, 연구자가 무작위로 요구르트를 100개를 뽑았다고하자. 그 요구르트를 우리는 표본(Sample)이라고 한다. 뽑힌 100개의 요구르트의 평균 용량이 55ml였다. 그러면 어떤 요구르트는 48도 있을수도있고 49도 있을수도있고 여러 경우가 있는데 평균 50ml와 55ml가 안전하게 차이가 난다라고 말할 수 있을까? 우연히 연구자가 100개를 뽑았을 때, 좀 많아보이는 요구르트만 뽑았을 수도 있다. 이를 얘기하기 위해서는 뽑힌 요구르트의 평균인 표본평균(X bar)의 확률분포를 알아야한다. 이를 보통 Sampling distribution이라고 한다.





Sampling distribution(표본분포)


위 처럼, 연구자가 가지고 있는 데이터는 한 묶음이지만, 이러한 묶음을 여러번 했다고 가정하자 (같은 사이즈)(실제로는 이러한 분포는 여러번 뽑을 수 없다. 고작 연구자가 가지고 있는 데이터도 구하기 힘든데 이를 여러번 하기란 무리다). 이러한 가정을 하면, 여러번 시행해볼 수 있다고 상상할 수 있다. 그러면 이러한 묶음은 분포로 설명할 수 있는데 이를 Sampling distribution이라고 한다. 즉, 가상의 분포이다. 정확히는 같은 사이즈(N)의 분포를 여러번 시행했을 때의 mean의 분포이다. 우리는 이를 이용해서 H0를 기각 할 것인지 말 것인지를 정하는 것이다. 즉 샘플링 분포를 여러번하면, 모집단을 설명할 수 있기 때문에 이러한 방법을 사용하는 것이다.

 이러한 표본분포의 특징은 모집단에서 갖는 분포가 정규분포라고 가정하면, 그 변수에 대한 샘플링 분포도 정규분포를 갖는다. 그리고 우리가 뽑은 묶음의 분포도 N사이즈 어느정도 크다면, 표본 평균(X bar)도 정규분포를 따른다고 알려져있다(중심극한정리 CLT)


* 모집단: 정규분포 -> 샘플링분포도 정규분포


이러번 시행하는 샘플의 평균을 X bar라고 하면, 이러한 확률변수 X(표본평균들)의 분포의 특징을 다음과 같이 설명할 수 있다. 

이는 가상의 분포를 여러번 평균을 내면 기대값이 모수랑 같아진다는 것이다.


다음은 이러한 평균들의 분산인데, 샘플사이즈가 크면 클수록 모집단 평균으로부터 떨어질 가능성이 적다는 것을 의미한다. 막말로, N을 무한히 많이뽑아서 모집단에 가까워 분산이 거의 없어진다. 


Standard Error(표분오차)는 표본분포의 표준편차를 의미한다.




이를 이용해서, mu가 모집단의 평균일테니, mu와 내가 뽑은 X bar와의 차이를 구해서, 얼마나 떨어져있냐를 계산할 수 있다. 평균이 50ml라고했는데, 내가 뽑은 요구르트는 55ml였다. 100개 뽑는 시행회수를 여러번 한다고 했을 때의 각 묶음의 분포가 표본분포일 것이다. 이러한 표본분포의 평균이 50과 멀면, 실제로 50ml가 아닐 것이라고 판단하는 것이다. 


추정식(Estimator)


위의 사례에서, 우리는 표본평균을 얘기했다. 표본평균은 샘플링한 표본의 평균이다. 우리가 알고 싶어하는 전체의 요구르트용기 1억개(또는 그 이상)과 다르다. 즉, 우리가 알고싶어하는건 모집단의 평균이 50이냐 아니냐가 궁금하기 때문에 이러한 추정을 해야하는데, 이런 모수를 추정하는 식을 추정식(Estimator)라고 한다 .


모수를 추정하는 식은 통계학자들이 여러가지를 개발해 놓았는데, 이러한 추정식 중에 좋은 추정식을 사용해야한다. 이러한 기준은 3가지가 있을 수 있는데 다음과 같다(the Goodness of an Estimator).


- Unbiasedness(비편향): E(추정식) = mu . 평균적으로 추정식을 통해 계산된 추정치가 모수와 같다는 것. (=추정된 값이 틀리지 않았다)

- Consistency

- Efficiency: 분산 (분산이 작을수록 좋다)


모집단 평균에 대한 위의 조건을 만족시키는 예시는 다음과 같다.






통계적 판단


표본 평균(X bar)의 분포를 가지고 우리는 표본분포라고 했다. 이러한 표본분포의 평균(E(X bar)이 내가 가정한 모집단의 평균(mu)이 얼마나 떨어져있는지를 확률적으로 계산할 수 있다. 이를 위해 우리는 기각역(Rejection region)을 설정한다.



기각영역(=기각역)의 크기는 유의수준과 같도록 설정한다. 보통 0.05를 많이 설정하는데, 기각영역이 0.05면 유의수준이 0.05라는 의미이다.


유의수준(Significance level): 1종 오류가 발생할 확률(1종 오류 발생 용인 기준)을 의미한다. 통계적인 가설검정에 사용되는 기준값이다. 일반적으로 유의수준은 alpha로 표기하고, 데이터 수집전에 유의수준 값을 선정한다. 만일 신뢰도의 기준을 95%로 한다면, 0.05값이 유의수준이다.  우리는 통계적인 판단을 할 때, 모수를 추정해서, 내가 일반화할 때, 오류가 발생할 수도있다. 즉, 추정하는 과정자체가 샘플링 바이어스(Sampling bias)가 있어서, 달라질 수 있는데, 이런 통계적 추정을 p-value와 significant level을 이용하여 수치적으로 해결하자는 것이다. 



1종 오류(type I error), 2종 오류(type II error): 1종 오류는 맞는 귀무가설을 틀렸다고 하는 것이며, False positive, 2종 오류는 틀린 귀무가설을 맞다고 하는 것이다(False negative). 예를 들어서, 유방암환자가 mamography을 찍었다고 했을 때, 귀무가설을 암이 없다라고 했을 때, 1종 오류는 암이 있는데 없다고 하는 거고, 2종오류는 암이 없는데, 있다고 하는 것. 보통 우리는 귀무가설을 기각해서(집단간의 차이가 없다라는 말을 기각해서) 차이가 있다라는 것을 발견하는데 그 때 쓰는 alpha가 이 1종 오류의 값을 의미하는 것이다. 

이 alpha을 1종 오류라고 하며, 2종 오류는 beta라고 한다.

즉 alpha 값이 0.05란 말은 귀무가설(집단간의 차이가 없다)라는 것을 alpha로 보여주고, 0.05보다 작으면 차이가 있다라고 생각한다. 이는 귀무가설 0.05보다 작은 수준으로 오류가 있단 말인데, 연구자가 샘플링을 100개 했다고 하면, 우연히 alpha만큼 차이가 안난다는 의미이다.






가설의 검정력(power of hypothesis testing):

귀무가설을 채택해야하지만 귀무가설을 기각하는 경우의 확률: 유의수준 alpha로 표시, 

귀무가설을 기각해야하지만, 귀무가설을 채택하는 경우의 확률: beta로 표시



가설 수립

귀무가설: "모평균이 계산된 특정 값과 동일하다." 라는 가정을 하자. 그러면 H0은 아래와 같이 표시할 수 있다. 그러면, 대립가설은 다르다라는 가설을 할 수 있다.

좌측검정은 연구자가 얻은 샘플의 통계치가 더 작다라는 것이 대립가설이 되고, 우측검정의 경우 그 반대가 된다. 양측검정은 크거다 같다니까, 즉 다르다가 결정이 된다.







모분산을 알때와 모를때의 가설검정 방법


위에서 표본분포를 가지고, 정규화시킨다음에 기각역에 대한 면적을 계산해서 차이가 있는지 없는지를 계산한다. 그런데 Z분포로 정규화시키는 과정에서 다음과 같은 식이 사용되는데, 이때 모분산(모표준편차)를 아는 경우와 모르는 경우가 발생한다.


여기서 시그마(sigma, 모표준편차)를 아는 경우는 그냥 계산해서 사용하면 되는데 이러한 경우는 거의 드물다. 우리가 전수조사를 하는 경우는 극히 드물기 때문이다. 


1) 모분산을 아는 경우는 위의 Z분포를 이용해서, 통계적 구간추론을 하면된다.

2) 그러나 모르는 경우는 t분포를 사용하는데, 다음의 경우로 또 나뉘어 진다

1) 모르는 경우 + 샘플사이즈가 충분히 큰 경우(n>=30)

   이 경우 t분포를 사용하지면, t분포의 샘플사이즈가 충분히 큰 경우 정규분포를 따르기 때문에, 결국 정규분포를 사용할 수 있다.

다만, 모표준편차를 모르기 때문에, 이 대신에 표본표준편차(s)을 대입해서 사용한다 .이렇게되면 t분포로 바뀌게 된다. t분포이지만 형태만 정규분포를 따른다고하기 때문에 정규분포처럼 사용할 수 있다.


 


2) 모르는 경우 + 샘플사이즈가 작은 경우 

 이 경우도 역시 t분포를 사용하지만, 정규분포의 형태처럼 사용할 수없기 때문에, 순수히 t분포를 사용한다. t분포의 구간추정할때 정규분포의 면적값에 해당하는 z=1.96과 같은 구간이 달라질 수 있어 t분포의 예시를 사용해야한다.





Q, 어느 학교 학생들 36명의 키를 표본 조사한 결과 평균이 169.7cm 였다. 만약 이 학생들 키가 정규분포를 따르며 분산이 16일 경우 실제 평균 키에 대한 95%의 신뢰구간을 구하시오. 만약 분산을 모르며 표본분산을 구한 결과가 19.1였으며 평균이 동일하게 169.7cm 였다면 실제 평균 키에 대한 95%의 신뢰구간은 어떠한가? 또한 이 학생들의 키의 분포를 모른다고 할 경우 150명의 표본을 통해 평균 169.7cm, 표본분산 19.1이었다면 평균키의 95% 신뢰구간은 어떠한가?






Pearson Correlation (피어슨 적률상관계수)


우리는 A라는 변수와 B라는 변수가 같이 증가하거나 같이 감소하거나 또는 아무 관계가 없거나 하는 변화를 동시에 보고 싶어하는 경우가 있다. 이런 경우에 측정하고자하는 것이 상관계이다 .구체적으로는 두 변수 X, Y에 대해서 선형적인 관계가 있는지 없는지를 보는 측정치이다. (Pearson's correlation coefficient is the covariance of the two variables divided by the product of their standard deviations)


Pearson correlation의 정의는 다음과 같다.



위에서의 Cov(X,Y)는 Co-variance을 뜻하며, 공분산을 의미한다. 공분산도 이러한 상관관계처럼 X가 변화할 떄 Y가 얼마나 변화하는지 알려주는 측정지표이지만, 나오는 측정치들이 -무한대부터, 무한대이기 때문에 이럴 경우 데이터마다 다르기때문에 구간을 나눠 표준화시킬 방법이 필요하였는데 이가 피어슨 상관계수이다. 그렇기 때문에 공분산에 각각의 X, Y의 표준펀차를 나눠주게된다.




이러한 상관관계도 단점은 모집단에서의 상관관계를 보는 것이지만, 샘플데이터만 있기 때문에 이를 추정하는 방법이 필요하다. 모집단의 피어슨 적률 상관계수를 구하기 위해 모집단의 공분산과 모집단에서의 X의 표준편차, Y의 표준편차를 각각 구해야한다.





반응형

미국시간 2019년 2월 22일 (금) 나스닥이 1~2%나 상승하는 가운데, 버크셔헤서웨이만 -2.5%이상 하락하였다. 


이유는 캐첩회사로 유명한 Kraft Heinz가 -27%나 빠지면서인데, Kraft Heinz는 버크셔헤서웨이가 6번쨰로 많이 가지고 있는 주식 중 하나이기 때문이다.



2019.02.22.

Kraft Heinz Co.




크레프트 헤인즈(KHC)는 가공식품(packaged food: 포장식품)으로 유명한데, 마카로니&치즈, 토마토 케첩이 주 식품이나. 이 회사가 -27%나빠지면서, 버크셔헤서웨이도 장부상 감가상각을 해야하기때문에, 자산평가에 불익이어서 시장에서 민감하게 반응해서 -2%이상 하락한 것으로 보인다. 원래 크레프트 헤인즈는 케시카우가 캐첩이기 때문에, 우리가 매일 구매해야하는 특성이 있어, 현금흐름도 좋고, 꽤 좋은 배당도 해왔었다. 그러나 앞으로는 각 분기별로 64센터 하던 배당을 40센트로 인하하기로 하면서, 시장의 실망이 좀 큰 것 같다.


이렇게, 버핏이 투자한 회사들(코카콜라, 헤인즈)은 소비자들이 꾸준히 찾는 회사들을 투자한 것으로 보이는데, 최근에 소비자의 소비 경향이 좀더 건강하고, 신토불이와 같이 local food을 선호하는 경향이 있으면서, 투자종목에 손해를 입는 것 같다. 유사하게, 코카콜라도 전년대비 5%나 상승했는데, 2019년 2월에만 4.5%나 빠졌다. 이렇게, 가공식품과자(pre-packaged snack)등으로부터, 건강한 소비로 소비경향이 바뀌는데도 버핏은 2018년 5월에 이런 투자가 괜찮다고 방어했다.


시장에서는 크레프트 헤인즈의 브렌드 가치를 처음에는 높게 생각했지만, 점차 이런 소비경향 떄문에, 크레프트 헤인즈의 브렌드가치를 희석시키고 있다. 이런 시장 상황에, 마침 크레프트 헤인즈가 비용증가와 브렌드가치에 대한 압박이, 2018년 4분기 레포트로 들어났다. 심지어 크레프트 재무회계 수석도 바텀라인 시장 실패로, 저조한 판매를 보일 거라는 말을 암시하면서 공포가 심화된것으로 보인다.


자산 감가상각으로, 크레프트 헤인즈가 주당 84센트의 어닝을 보인다고 발표하면서 (yoy 6.7%), 시장분석대비 약한 이익을 보였다. 또, 악재는 우리나라의 거래소에 해당하는 Secuirties and Exchange Commision에서 압수수색과 같은 회사조사를 하겠다고 부정적인 이슈가 또 나왔다.



Shareholder letter

1. Truly good businesses are exceptionally hard to find. Selling any you are lucky enough own makes no sent at all: 버크셔 헤서웨이가시장성있는 자산에 집중하는 형태에서 회사운영에서의 운영수익이 주 가치인 회사에 투자하는 회사로 바꾸고 있다고 했다. 다양한 분야에 투자하고있는데, 좋은 회사들을 파는 건 완전 바보짓이라고 했다. 

2. Over time, investment performance converges with business performance: 가치투자를 하는 것에서, 주식가치는 항상 회사의 내재가치를 반영하지 않는다고 한다. 그러나 점점 시장가치와 회사내재가치는 수렴할거라는 생각이다.

3. Charlie and I have never focused on current-quater results: 버크셔헤서웨이는 매달 어닝리포트랑 현금흐름표를 준비하지 않는 포츈의 500개 기업중에 유일한 ㄱㅣ업이라고 한다. 즉, 매달, 매분기에 일희일비하지 않는 것같다. 그러나 버크셔의 전체적인 운영의 수익은 챙겨보는 듯 하다.

4. Charlie and I ahve no idea as to how stocks will behave next week or next year. Predictions of that sort have never been a part of our activities. 주식의 시장가치를 분석하는 거보다, 매력적인 분석인지 아닌지를 계산하는거에 더 초점을 둔다

5. Our country's almost unbelievable prosperity has been gained in a bipartisan manner : 버핏은 미국 시장에 대해서 아직 강세작이라고 생각하고, 이를 강조한다. 

Truly good businesses are exceptionally hard to find. Selling any you are lucky enough to own makes no sense at all.


반응형

1980년대 이전에는 Linear한 방법으로만 학습을하고, 분류하는 것이 이루어졌다. 그 이후인 1980년대에는 비선형기법으로 Decision Tree와 NN을 이용하여 비선형인 방법을 이용하려고 했지만, 학습하는데 있어 local minima등이 해결이 안되어 모델에 제한이 있었다. 그이후 컴퓨터학습이론이 개발되면서 효율적으로 학습이가능한 비선형 머신러닝기법이 생겨났다.


앞에서 언급한것처럼, 1980년전에는 2차원에서는 선형방법은 데이터가 있을 때, Postive / Negative와 같이 두 분류로 결정된다. SVM은 유사하게 2차원에서의 선을 한 차원 더 올려서 3차원에서 plane 형태로 만들어거 분류하고자 하는게 가장 핵심적인 컨셉이다. 


SVM을 이해하기 위해서는 3가지의 개념을 이해해야하는데, Margin, Support vector, Kernels이 그 3가지이다.

Support Vector는 Decision surface(Hyperplane)에 가장 가까운 데이터포인트(인스턴스)이다.

Margin은 이 Support 로부터의 거리이며, SVM은 margin이 가장 큰 평면을 구하는 알고리즘이다.


VC dimension: 모델이 분류가능한 경우의 수(=shattering 할 수 있는 가장 많은 수의 데이터의 수)

예를, 들어 2가지로 분류하는 경우(이를 dichotomy라고 한다),  데이터 개수가 n개라고하면  2^{n}이다. 예를 들어서, 3 개의 데이터가 2차평면에 있다고 가정하면, 

1. {}, {A,B,C} 

2. {A}, {B,C} 

...

등으로 나눌 수 있는데, 그래서 2가지를 분류하는 경우를 일반화하면, 2^{n}개이다. 그렇게, n차원에서 최대로 shatter할 수 있는 데이터 서브세트를 VC dimension이라고 한다. 2차원에서는 최대 많아봤자 3개의 데이터세트를 분류할 수 있다. 2차원에서 4개의 데이터를 다 분류할 수는 없다. 

(Source: http://www.ehu.eus/ccwintco/uploads/e/e2/Svm.pdf)

이를 일반화하면

특징: VC dimension (H) = 차원(n) +1 이다.

parmeter의 증가하면, 모델이 분류할 수 있는 경우의 수 (VC-dimension)이 증가한다. 


Margin & VC-Dimension

SVM에서 margin을 최대로해서 분류해야 한다고 한다. 이유는 데이터들이 있을 때, 그룹간의 거리가 클수록 뚜렷하게 그룹이 보일것이다. 예를 들어서, 남/북한이 구분짓는다고 가정했을 때, 38경계선을 1mm두께로하는것보다 DMZ처럼 넓게 하는 것이 좋은 분류가 될 것이다. 마찬가지로, 그 그룹안에 선을 그을 때, 중앙에 그어서, 두 집단간간의 거리, 그리고 집단과 선의 거리가 최대가 되었을 때, 잘 분류했다고 직관적으로 생각 할 수 있는데, 마찬가지로 마진을 최대로 해서 분류해야한다는게 SVM을 선택하는 기준이다. 이 Margin을 최대화 한다는 것은 VC dimension을 최소로 한다는 이야기인데, 


마진을 최대로하는 w찾기. 3차원에서의 vector은 바라보고 있는 방향의 vector와 같다. 즉, 이를 w vector라고 하면, 초평면은 다음의 수식을 따른다. wT라고 쓴 이유는 3차원의 (x,y,z)와 계산을 위해서 전치행렬(transpose)을 하기 위함이다. 즉, 다음의 식(1)에서 우리가 구해야하는 파라미터는 w, b만 있으면 된다. w는 정규화된 결정 초평면 벡터이며, x는 데이터, =을 0으로 했지만,  =y로 둔다면 , y는 데이터 포인터의 클레스이다. 



 (1)



(1)번은 초평변을 의미했다면, 분류기의 형식(표현방식)은 (2)로 설명할 수 있다.  여기서 sign함수가 나오는데, 삼각함수의 사인함수(sin)이 아니라, sign함수이다. 아래의 그레프를 보면 이해가 될텐데, 이런 형식과 유사하게 f(x)가 1보다 크면 y=+1을 출력하고, f(x)가 -1보다 작으면 -1을 출력하는 형식이다. 즉, 수의 부호를 판별하는 함수처럼 생각하면 된다. (2)번의 식에 각 x들을 넣어서 계산했을 때 1보다 크고 작은 것을 이용해서 분류할 수 있다는 말이다.

 (2)




참고로, (1)에서 0은 어짜피 상수이므로 , 정규화하여 하여서 조건을 줄 수 있는데, 이는백터의 각 요소의 크기를 1로 맞춘다는 것을 의미한다. 그렇게 조건을 주어 다음의 식을 생각해서 , 각 w와 b을 계산할 수 있게된다. 이것을 직관적으로 이해하기위해서, 2차평면에서 1차함수를 생각해보면, 1차함수 cx2= ax1+b라고 했을 때, 각 a,b,c만 알면 이 수식을 다 알 수 있다. 이 a,b,c에 2배를 하든 3배를하든 라인은 똑같은 설명을 가지게된다 유사하게, 크기를 1인 형식으로 맞춘다고 생각하면 된다. 


 (3)


Margin Maximization

조건식이 아닌 하이퍼플레인 식(1)에서 임의에 x1, x2이 하이퍼플레인 위에 있을 때,  다음의 식을 따른다.(4) 이 4번식에서 위아래의 차를 구하면 (5)식을 따르는데 이는 x1-x2벡터가 (즉 하이퍼플레인으로 뻗어있는 방향)은 w벡터와 Orthgonal(수직?)하다라는 것이다. 이것을 알면 가장가까운점 Xn과 하이퍼플레인과 거리를 구할 수 있다. 그리고 서포트벡터(가장 가까운점. Xn)과 분류기의 거리를 구하는게 중요한데 이를 d라고하면, W벡터에 Xn-x1벡터를 projection하면 Xn과 hyperplane의 거리를 측정할 수 있다(수학에서 정사영(그림자))을 구하듯이 구한 다는 것이다. 


 (4)



(5)



Xn-X1(녹색선)에 대해서 W벡터(검은색선, 거리)쪽으로 햇볕을 쪼였다고 생각했을 때, Xn과 하이퍼플레인과의 거리가 되는 것이다. 이 계산을 위해서, Xn-X1에다가 w벡터 방향에 unit벡터와 inner product을 해주면되는데, w방향의 unit vector(크기가 1인벡터)을 w hat이라고 했을 때, w벡터의 각각의 길이를 정규화(w벡터의 norm)한것이다. 이는 방향에 따라서 -가 될수도있기 때문에 W hat *(Xn-X10) = Distnace이다. 





Optimization problem

margin maximzing =max(1/||w||)= 



Hyperplane을 아래와 같이 H1은 y=1 일때라고 생각하면 빨간 점들은 wx+b >= 1인 점들이고, H2은 y=-1이라고 생각하면 wx+b<=-1인 경우이다. 서포트 벡터를 통과하고, 우리가 구하고자하는 H와 평행한 평면을각각 H1, H2라고 한다면, H1: xw+b = 1, x

H2: xiw+b = -1



w는 weight vector이고, 하이퍼플레인을 경정한다. 



Soft margin & Hard margin


우리는 최적화문제를 해결하기위해서 , 보통 하드마진을 생각한다. 하드마진이란, SVM의 하이퍼플레인의 모든 분류가 완벽하게 분류해놓은 것을 이야기한다. 위의 그림처럼 모든 결과가 깔끔하게 분리된 경우를 의미한다. 그러나 이러한 경우는 Real world에서 거의 발견되지 않아, 조금은 잘못된 분류를 포함한 분류기(하이퍼플레인)가 필요한데, 이를 Soft margin(소프트 마진)이라고 한다.


이러한 소프트 마진을 고려하기위해서는 C와 gamma의 두 가지의 하이퍼 파라미터를 이해할 필요가 있다.



반응형

'Data science' 카테고리의 다른 글

머신러닝 모델 분류  (0) 2019.03.12
Reshape and Pivot table  (0) 2019.03.08
Decision Tree (의사결정나무)  (2) 2019.02.15
Pandas Dataframe Manipulation  (0) 2019.02.14
Category data handling  (0) 2019.02.14

확률변수(Random variables)


사건이 발생할 종류에 원하는 숫자를 대입한 것. 예) 동전 던지기와 같이 앞면이 2번 발생한 경우를 X= 2, 1번 발생한 경우를 X=1라고 할 수 있다. 확률변수는 2가지 종류가 있는데 다음과 같다.

  • 이산확률변수(Discrete random variables): 셀 수 있는 특정한 값으로 구성(값이 유한, finite). 이러한 확률변수에 대한 함수를 확률질량함수(Probability mass function)이라고 부른다.
  • 연속확률변수(Continuous random variables): 연속형이거나 무한한 경우와 같이 셀 수 없는 학률변수. 이러한 확률변수에 대한 함수를 확률밀도함수(probability density function)이라고 부른다.

* 참고로, 확률함수(Random function)란 실험을 계속 했을 때, 결과가 몇번씩 발생했는지 알 수 있는데, 이러한 발생의 확률을 계산하여 함수로 표현 한 것을 의미한다. 이 함수는 확률이 될 수 있는 0~1사이의 확률을 나타내어주는 함수를 의미한다. 유사한 개념으로 확률분포(Probability distribution)은 확률변수에 따라 확률이 어떻게 분포되어있는지를 의미한다. 이러한 확률분포는 확률함수가 추정되어있거나 정의되어있으면, 분포를 파악할 수 있다.


확률함수에 대한 예시를 다음과 같이 들 수 있다.

확률변수와 확률함수와의 관계는 예를 들어 복권을 샀을 때, 꽝아니면 당첨이라고 생각해보자. 당첨 확률이 1/3이며, 3번 샀을 때를 예시를 들어보자. 그럼 사건은 0번 당첨, 1번 당첨 2번 당첨, 3번당첨 해당하고.. 당첨횟수가 확률변수를 의미한다. 그리고 당첨횟수에 대한 확률이 '확률' 이라고 부르고, 이러한 확률을 함수로 당첨횟수(확률변수)에 따른 확률로 일반화하면 '확률함수'이다.


  • 확률 변수의 기대값: 사건에서 발생하는 해당값과 그 사건이 발생할 확률을 곱해서 모두 더한 값. 예를 들어서, 복권에 1등 2등 꽝에 당첨될 확률이 20%, 30%, 50%라고하면, 1등에 해당하는 당첨금과 확률을 곱하고, 2등에 해당하는 당첨금과 확률을 곱하고 꽝은 당첨금이 없으니... 더하나마나이지만 더한 겂이 기대값이다. 수식은 아래와 같다.



  • 확률변수의 분산: 기대값의 특성으로 나타내는 값. 확률변수들이 기대값들로부터 벗어나 있는 정도. 이 말은 기대값에 대해서, 각각의 확률변수가 얼마나 떨어져잇는지를 나타낸다. 위의 예에서, 당첨금이 1만원인데 확률변수의 분산이 크다면, 대박아니면 쪽빡이란 얘기다. 수식으로는 아래와 같다. 

(2)

  • 확률변수의 편차: (2)식에서 루트를 씌우면 된다.





확률분포(Probability distribution)


  확률 변수의 정의는: 하나의 변수가 취할 수 있는 각 값과 그에 대한 확률의 대응관계를 의미한다. 수학적인 정의는 다음과 같다. 변수 x가 취할 수 있는 모든 값이 x1, x2, x3, x4이고, 이에 각각 대응하는 확률이 p1, p2, p3, pn 인 경우, 이 둘의 대응 관계를 X의 확률분포라고 한다. 즉 X에 특정한 값이 들어가면 확률이 튀어나오는(반환)되는 관계를 의미 한다.


위에서 언급했듯이, 확률변수에 따라서 연속형 확률변수와, 이산형 확률변수에 따라서 확률분포의 종류가 달라지는데 다음과 같다. 아래의 그레프를 읽을 때, X축과 Y축에 따라 함수의 의미를 이해해보자.

  • 확률밀도함수(Probability density function, PDF): X는 확률변수를 의미하고 Y는 확률밀도를 의미한다. 이 확률 변수(x)는 특정 값(점)에 대해서 확률이 0이라고 할 수 있다 (식 1). 예를 들어서, 글쓴이의 키가 175.32cm이라고 할 확률이 몇이라고 할 수 있는지를 묻는다면 0이라고 대답해야할 것이다. 175.321cm일 수도 있고, 175.3254872cm일수도 있고, 확률변수가 무한하기 때문에 특정 값에 대해서 0이다. 따라서 아래의 그림처럼 특정 구간(a에서 b까지) 적분하여 확률을 표현할 수 있다. 

 




(source: http://work.thaslwanter.at/Stats/html/statsDistributions.html)

  • 누적분포함수(Cumulative distribution function, CDF): PDF에서 각 구간별로 면적의 누적합이 CDF이다. 아래의 수식에서 F(X)은 CDF을 의미하고, f(x)은 PDF을 의미한다. PDF을 적분을 하면 CDF가 된다. 반대로 CDF을 미분하면 PDF가 나온다. 즉, CDF의 접선의 기울기가 PDF라는 의미이다.

 




확률분포의 모양

이러한 확률분포의 모양을 결정하는 것을 모수(Parameters)라고 하는데, 위치모수(Location parameter), 형상모수(Shape parameter), 척도모수(scale parameter)가 있다. 정규분포의 경우 분포의 평균인 E(X)와 분포의 퍼진정도인 Var(X), 또는 SD(X)을 이용해서 모양을 결정할수 있다.




결합확률분포(Joint probability distribution)


결합확률분포도 각 이산확률변수인지 연속확률변수인지에 따라 두 가지로 분류할 수 있다.  각각 다음과 같이 표기할 수 있다.

  • 이상확률분포:
  • 연속확률분포: 


주변확률분포(Marginal Probability distribution): 결합확률분포를 공부하다보면, 주변확률분포도 같이 언급된다. 이유는 주변확률분포는 결합확률분포를 전제로 하기 때문이라 생각된다. 주변확률분포는 두 개의 변수로 이루어진 결합확률분포를 통해, 하나의 변수로만 이루어진 확률분포를 구하려고하는 것이다. 주로 Summation을 이용해서 나머지 확률을 없애고 하나의 확률만 구하는 방식이다. 즉, 주사위던지기(X), 동전던지기(Y)가 에 대한 결합확률분포가 있다면, 모든 동전던지기의 확률을 더하면 주사위던지기만 나올 것이기 떄문에 합을 통해 주변확률분포를 구한다. 수식으로 표현하면 다음과 같다.


이산확률변수인 경우: 주변확률분포는 주어진 결합확률분포에서  한 확률분포에 대한 분포를 찾기 위함이다. 따라서, 원하는 확률분변수 외의 확률값을 모두 합해주면 된다.(예, X가 취할 수 있는 모든 값을 더한 y의 확률분포)식은 다음과 같다.

연속확률변수인 경우: 마찬가지로 y에 대해서 합을 하기위해서 dy을 하거나, x에 대해서 합을 하기 위해서 dx을 한다.



마찬가지로, CDF의 경우 위의 PDF에 적분(연속형 변수)을 하거나 특정 확률분포에 대해서 합계(이산형)를 해주면된다.

Joint PDF은 x,y, 두 변수에 대해서 Joint CDF미분을 하면 된다. 



Conditional PDF


이산형 변수인 경우

연속형 변수인 경우


독립인 경우



확률 분포의 특징


기대값(Expectation)


상수 배를 할 경우의 특징

E(c)=c

E(aX+b) = aE(X)+b

E(aX+bY) = aE(X) + bE(Y)

E(X|X) = X





분산의 계산 특징



(source: https://slideplayer.com/slide/2617017/)






공분산(Co-variance)


X와 Y가 얼마만큼 많이 변화 하는지를 보는 것. 정의는 아래와 같다.



두 확률 변수 X, Y가 독립일 경우에 E(XY)가 E(X)* E(Y)이고 이는 각각 평균을 의미하므로 Mu_x, Mu_y이므로 0이된다.



* 참고 Correlation : 





Moment (적률)


 확률변수 X의 n승의 기대값

  • E(x)은 1차 모멘트: 평균이고 분포의 Location parameter에 해당한다.
  • E(X) 2차 모멘트. 평균에 대한 2차 모멘트 . 







Basic distribution


Discrete variable인 경우 따를 수 있는 확률함수의 형태


  • Bernouli distribution: 성공 혹은 실패의 형식의 이분(Binary) 한 경우의 사건이 발생하는 경우를 베르누이 시행이라고 하는데, 이런 베르누이 시행에 대한 분포를 베르누이 분포라고 한다.


Bern(x;θ)={θ1θif x=1,if x=0






Binomial distribution(이항분포): 위와 같은 베르누이의 시행에서, K번 시행해서 이벤트가 발생할 확률에 대한 분포가 이항분포라고 한다. 바꿔 말하면 이항분포에서 시행 회수가 1인경우(K=1)가 베르누이 분포랑 같다고 할 수 있다.


Multinomial distribution(다항분포): 이항분포의 경우 사건이 이분형으로 나뉘는데, 다항분포는 이의 일반화이다. 즉 True/False가 아니라 더 많은 종류의 카테고리가 있는 경우를 다항분포라고 할 수 있다.


Posisson distribution(포아송 분포)많은 사건 중에서 특정한 사건이 발생할 가능성이 매우 매우 확률을 갖는 분포이다. 포아송분포는 사건을 n회 시행할 때 특정한 사건이 y회 발생할 확률분포 중에서 사건을 시행한 수인 n이 무한대인 경우에 해당한다. 예를 들어, 차량 통행을 n이라고 하고, 고속도로에서 하루동안 발생하는 교통사고가 발생 사건수이 이에 할 수 있다(n고속도로 차량 통행이 n이 충분히 크다.) 또는 말을 타는 횟수(n) 중 말에서 떨어지는 사고가 발생하는지 횟수( x).

(source: 포아송분포 [Poisson distribution] (교육평가용어사전, 2004. 5. 31., 한국교육평가학회))



 

Continuous variables 인 경우 따를 수 있는 확률함수의 형태

Normal distribution(정규분포)

Uniform distribution: 확률변수 X에 대해서 확률값이 동일한 경우


그외

chi-square distribution (카이제곱 분포)

Student-t distribution

F distribution

Exponential disrtibuion




(source:https://destrudo.tistory.com/16)







정규분포(Normal distribution)


평균에 가장 많이 모여있고, 평균과 분산으로 분포의 특성을 알 수 있다. 

평균을 중심으로 대칭 (생략)




 표준정규분포(Standard normal distribution. z 분포):  평균이 0, 표준편차가 1인 기준으로 표준화한 분포

 (mu: 는 평균, sigma는 편차)



기타



Combination (조합)


Permutation



Laws of large number: N이 커지면, 샘플의 평균이, 모수의 평균과 같아진다. 샘플을 할때 한 집단을 많이 많이 뽑으면, 모수 전체의 평균과 같아진다. 


Central limit theorem: X의 분포와 상관이 없이, n이 커지면, 샘플의 평균X_bar의 분포가 정규분포를 따른다는 것.





* 틀린 부분이나 오류가 있으면 댓글로 달아주시면 감사하겠습니다.





반응형

 

비선형 회귀 모델(상호작용모델)의 경우에는 만일 선형회귀식내에 다뤄야할 피쳐수가 너무 너무 많은경우에는 이러한 경우에 설명이 잘 되지 않는다. 비선형 회귀모델에서 이러한 방법을 대체할 수 있는 방법이 Partition이다. 이렇게 나누는 과정을 계속계속 나누다는 과정을 recursive partitioning이라고 부른다. 

예측 나무는 나무를 이용하여 나누는 과정을 표현한다. 나무의 Terminal node와 leaves는 각 파티션의 한 부분을 의미한다. 위에서부터 각 x들이 어디에 속할지를 파악하기위해 root node부터 시작한다. 그리고 피쳐에 대해서 계속 질문을 해나가서면서 if else 형식으로 분류해 나간다.  또한 이러한 변수들은 모두가 같은 데이터타입의 형식이 아니어도된다. 어떤것은 연속형범수(비율척도)여도 되고, 어떠 것은 이산형이나, 순서형, 명목형이어도 상관이 전혀없다. 각 분류를 하기 위해 질문을 해나가는 과정만 잘 진행되면된다.

 


 

Decision trees 

보통, 의사결정나무라고하면, Classification tree을 의미한다. 그러나, Regression tree을 의미하는 경우도 있는데, 두 차이를 이해할 필요도 있다. 첫번째 차이는 사용하는 변수의 척도에 따라서 나눌 수 있다. 회귀트리는 연속형 변수를 사용하는 반면, 분류트리는 연속형 변수를 사용할 떄 이용된다. 이 변수는 독립변수와 종속변수 둘 다 해당된다. 또한 사용하는 알고리즘에서도 차이가 있는데, 분류트리는 대표적인 ID3 알고리즘과 같이, 지니 지수와 엔트로피의 개념으로 분류를 양적으로 계산한다. 한편, 회귀트리는 연속형 변수이기 때문에, 클레스(Class)을 나눌 수 없는데, 따라서 관측한 값과 만든 예측모델에서의 RSS을 계산하여 모델링한다.

 


Classification tree이를 세부적으로 알아보기 위해 아래의 몇 가지를 알아보자.

 

ID3 Algorithm (decision tree에 적용할 수 있는 알고리즘)

Decision tree에서 ID3는 entropy를 이용한 알고리즘인데 다음과 같은 방식으로 모델이 작동한다.
1. 현 Node를 나눌 가장 적절한 피쳐A를 찾는다. (=Root Noded을 찾는다)회귀트리에서는 RSS가 가장 많이 감소할 수 있는 feature을 찾고, 분류트리에서는 Entropy와 Information Gain (in ID3)을 이용한다.

그러면, 어떤게 가장 적절한 피쳐A인지 궁금해할 것이다. 이를 위해, ID3 알고리즘에서는 metric을 만들어서 사용하는데 (측정할 수 있는 모델), entropy라는 개념을 이용해서 사용한다. 실제로는 entropy와 Information gain을 이용한다. 참고로 ID3는 leaf node가 pure한 상태가 되도록 알고리즘이 수행되기 때문에, 오버피팅 문제가 발생할 수 있다.

 

불순성을 측정하는 방법은 Entropy, Gini ,Classifcaion error로 계산 할 수 있다.

 

불순도의 측정

1. Entropy

복잡도. 열역학 2법직이란 자연현상은 항상 엔트로피가 증가하는 방향으로 일어난다. 예를 들어, 여러 과자를 봉투에 튿어서, 한 봉투에 넣고, 집까지에 돌아다니게되면, 과자가 다섞여있을 것이다. 이러한 개념이 복잡도이다. 이런 개념으로, 엔트로피가 높다는 것은 복잡도가 높다는 것이다. 

 

 

 

(사진출처 : https://www.youtube.com/watch?v=9r7FIXEAGvs)

 

엔트로피의 정의는 아래의 식과 같다. 이거는 이항분포(Binary distribution)처럼 p2 = 1- p1 같은데, 즉 p1 (2가지로만 가정했을 때)

아래의 식을 보면, 엔트로피는 확률이 0.5일 때, 가장 높은데, 이 말은 그룹내에 종류가 50: 50으로 있다는 말이고, 종류가 1:0 혹은 0:1일 때, 가장 pure하여 엔트로피가 0인 것이다. (퓨어한 리프까지 갔다면, 엔트로피가 0이다. = 같은 속성인 요소끼리 놓았다). 즉 우리는 한 잎(leaves, region)안에는 동질성이 있는 그룹으로 나누길 원하기때문에, 엔트로피가 최소인 선택을 애햐한다. 분류트리에서는 이러한 엔트로피가 가장 크게 감소하는 속성을 베스트 속성으로 찾는다.

 

 

 

 

 

 Information Gain

위의 엔트로피의 계산에서, 이렇게 엔트로피가 감소하는 정도를 측정하는 방법(Metric)이 있는데, 이 방법 중 하나가 information Gain이다 . Gain(S,A) 의 의미는 피쳐 A로 나눔으로써 얻게되는 엔트로피의 감소이다. 따라서, 엔트로피의 감소가 큰 피쳐를 찾아야하기 때문에, Gain이 큰 값을 찾아야 한다. (즉= 어떤 feature로 나눌건인지에 대해 계산을 해야하는데 Inforamtion gain으로 계산해볼 수있다.)

 

(S는 데이터세트, A는 나눌 속성, H(S) 나누지 않았을 때의 엔트로피, - Sv는 그룹에 속해있는 요소의 크기(수), S는 나누기전의 수) 

따라서, 여러 속상에 대해서 information Gain을 다 계산해서, 가장 많은 Gain을 가져다 줄 수 있는 속성을 우리가 찾는 피쳐이다.

 

 

2. Gini index

또 다른 방법 중 하나는 지니 계수이다. 지니 계수는 엔트로피랑 유사하게 불순성(impurity)을 측정하는 방법이다. 즉 지니계수가 클수록 여러종류의 요소들이 한 노드에 있는 것이다. 이 말은, 제대로 분류가 안되었다는 말과 같다. 식은 아래와 같다. 작관적으로 이해하기위해서 아래 식에서, 1번 분류하는데 모두 같은 종류라고, 생각하면 지니는 0이다. 즉 완벽하게 분류되면 0, 점점 섞이면 섞일수록 커진다. (Pk는 각 인스턴스들이 k클레스에 속하는 비율이다. 50개중에 25개가 클레스 1에 속한다면 1/4에 해당한다)

 

 

Classification Error
지니 계수와 p을 구하는 것은 똑같은데, 다만 뒤의 합산의 값보단 최대값을 구해서 계산한다.
 

 

 

2. A를 현재 Node(Region)의 decision attribute을 적용한다3. A의 가능한 값들에 대해, 현 node의 child node들을 각각 하나씩 만든다. (Split)4. 현 Node에 들어있는 training exmaple 들을 각 A값에 따라 child node에 넣는다. (Split)5. Child node에 대해 node가 Pure하면 멈추고(, 그렇지 않으면 child node부터 계속 반복한다

 

풀어서 예시를 들면, 독립변수에 대해서 변화할 수 있는 값들에 대해서 나눌 수 있는 지점?들을 찾고 나눈다(Split point라고 한다). 그러면 각 영역은 겹치지 않는 영역으로 생각할 수 있다. 그리고나서 그 분류지점에 따라, 모든 관측된 변수들을 각각의 영역에 배치시킨다. 예를 들어 수학점수라고 할 때, 보충반 의 수학평균이 60, 그리고 다른 심화반의 수학점수의 평균이 80인 클래스가 있다고하자. 그리고 어떠한 새로운 사람이 들어왔을때, 그 사람이 첫번째 반에 속한다면, 이 사람의 점수가 60점이라고 예측하고, 만일 심화반에 속한다면 80점에 속한다고 보는 것이다. 즉 구역에따라서 점수를 나누는 것이다. 

 

 

 
 
 
 

 


회귀트리(Regression Trees)회귀트리는 계속 해서 2가지의 가지로 회귀적인 분할을 하는 과정의 방법이다. 이는 반복적으로 데이터를 2분류로 나누는 방법인데, 계속해서 2분류로 나누고 그 나눈 분류를 다시 2분류로 나누는 방법이다. 이런식으로 분할하여 분류모델을 만들어내서, 어떠한 변수들이 인스턴스를 설명할 때, 찾고자하는 종속변수를 예측할 수 있다. 즉, 선배들이 잘 만들어 놓은 길의 갈림길을 따라, 후배가 Root부터 leaves까지 쭉 따라가서 어느정도 종속변수를 예측하는 것이라고 생각하면 된다. 

분할을 하면 잔차의제곱합(RSS, 예측값과 관측값의 차이를 제곱하여 더한 값)이 개선된다. 트리의 마지막까지 계속 둘로 분할한다. 나무를 뒤집어 놓은 형식(식물의 뿌리같은 느낌)의 방향으로 분할하는 방식을 Top-down 분할이라고하고, 이런 과정을 Greedy라고도 한다. 또한 비선형 예측모델이다. 또한 DT 는 회귀문제에도 적용할 수 있고, 분류문제에도 적용할 수 있다.

참고로 

는 분류 결과의 왼쪽 branch를 의미하고, 

는 분류 결과의 오른쪽 branch을 의미한다. 

(외우기쉽게 이해하기엔, 등호 방향으로 만족한다라고 생각하면 된다.

 

 

Constructing the regions

이론상 region(예시에서의 반과 같은 구분할수 있는 공간)은 어떤모양이어도 되지만, 사람이 이해하기 쉬우러면 사각형이 편하다. 그렇기 때문에 2차원에서는 사각형, 고차원에서는 6각형이상의 고차원 박스가 나오는것이다. 이 모델의 목적은 그러면 어떻게 사격형(각 영역, 직사각형)을 구하냐는 것이다. 이는 아래의 식으로 구할 수 있다.아래의 식을 풀어해석하면은 각각의 yi에 대해서 j안에 있는 관측값들의 평균을 빼는 방식으로 모든 j개의 박스들을 다 계산을 하는 것이다. 그것의 값의 차이를 RSS라고 둔다. (회기식에서 RSS와 유사하다). 그러나 모든 J개의 분리가능한 파티션에 의해 계산하는 것은 거의 불가능하다. 처음부터 파티션을 어떻게 정하는지도 정해져있고, 생김도 모두 다르기 때문인 듯. 그러므로, 우리는 Top-down방식Greedy approach (=recursive binary splitting)의 방식을 이용하면. 가능하다. 처음 영역을 모두를 포함하는 영역이라고 하고, 변수에 따라 박스를 하나씩 그리면서(파티션을 두면서) 나눠가는 것이다. 파티션이 생기면 2개의 박스조각으로 나뉘는데 이게 tree의 branch가 된다. greedy라고 하는 이유는 각 스텝에서 최적의 파티션을 찾는 것은 특정 파티션을 찾을때까지 나누지 않기때문에 이렇게부른다)

 

 

 

1. 트리를 키우기 위해서, 계속 split을 하게되는데 recursive binary splitting을 한다. (즉 Numer of splitting이 큰게 large tree) 

 (관측수보다 트리의 말단노트가 적을 때까지 진행한다)

2. 그리고 너무 많은 subtree을 제거하기위해서 Cost complexity pruning을 진행한다. (= 최적의 subtree을 찾아서, 제거하기 위함이다)

3. K-fold cross-validation 을 진행한다.

 1) K번째 fold를 빼본다음에 오류값을 계산하고 , 오류가 최소가되는 subtree을 찾는다

4. 다시 2번을 진행한다.

 


Overfitting in Decision tree

의사결정나무 중, ID3을 이용하면, 말단 노드들은 퓨어한 상태까지 분류가 이루어지게 된다. 사용되는 피쳐들이 몇개 없다면 상관 없지만, 피쳐들이 많다면, 이러한 방법은 문제가된다. 데이터의 수가 많은경우, 아웃라이어처럼 예외적인 데이터들도 있을 텐데, 이 경우의 수에 대해서 다 퓨어하게 분류를 하게되기 때문이다. 즉, 노드의 개수가 많아지면서 오버피팅 문제가 발생할 수 있다. 즉, 예외일 수도 있는데, 굳이 분류를 하게되는 것이다. 오버피팅을 줄이기 위한 방법은 아래의 두가지로 요약할 수 있다.

 

1. Stop splitting

   A. Minimum n.이 방법은 쉽게말해서 마지막 노드들에 대해서 최소 이정도 갯수를 가지면 split을 멈추게 한다는 것이다. 

   B. Fraction of objects: 이 방법은 말단 노드들이 퓨어한 상태이거나 , 또는 본인이 지정한 수만큼, 노드안에 종류가 포함될 때 멈추는 것이다. 

 

2. Pruning

트리의 크기가 너무 커지면, 해석하기도 어렵고 오버피팅이 생기기 때문에, 적당한 크기의 트리를 만드는게 중요하다. Pruning(가지치기)라는 방법은 가장 큰 Tree(number of split이 최대인 tree)을 그린다음에 서브트리를 하나씩 빼보는 것이다. 그러면 어떤 서브트리를 뺴야 가장 좋은 선택인지를 정해야한다. 즉, 서브트리를 뺴도 설명력이 흔들리지 않아야한다. 유사하게말하면, 빼도 괜찮은 트리는 에러가 크게 나지 않을 것이다. 있으나 마나한 그저그런 파티션일거니깐. 예를 들어, 한 서브트리를 정한다음에, 이걸 뺄지 말지를 고민할때는 Cross-validation을 해서 에러를 평가한다. 그렇기 때문에, 적어도 트리를 만들 때, 3그룹 이상이 필요하다. 즉 train, validation, test로 나눌 때 가능하다(Validation set가 있을 때 가능하다. 왜냐하면, train set와 비교하면서 프루닝해야되기 때문이다). 또한, 트리가 너무 큰 경우에는, 모든 서브트리에 대해서 계산을 해야되기때문에 시간이 오래걸린다. 그러므로 이 방법은 트리가 작은 경우에 사용한다.

 


 

 

해석(Interpretation)

 

트리구조에서 가장 상단에 있는 factor는 회귀트리에서 가장 중요한 변수임을 나타난다.

그리고 그 아래있는 internal node에 해당하는 변수들은 상대적으로 덜 중요한 변수라고 여겨진다.

 

Terminology

Terminal nodes (leaves): 각 영역R1, R2 등... 즉, 트리모양에서 가장아래에 해당하는 부분이다.

Internal nodes: 중간에 나뉘는 갈림길 (분지점)을 Internal nodes라고 한다. 예를들어 수학점수<80 ? 이렇게 쓰여져있는 지점들이다.

Branches: 각 노드들에 연결되어있는 tree의 일부를 branch라고 한다.

 

 

Complexity parameter(CP): 복잡도인자

nsplt : number of split. 즉 트리를 분할한 횟수

rel error: 상대오차. 분할횟수에 따른 RSS값을 분할하지 않았을 때의 RSS로 나눈 값 

xerror: 10-fold cross validation을 토통해 나온 값으로 평균오차고

xstd: 교차검증과정의 표준편차

 

 

 






반응형

'Data science' 카테고리의 다른 글

Reshape and Pivot table  (0) 2019.03.08
SVM (Support Vector machine)  (0) 2019.02.23
Pandas Dataframe Manipulation  (0) 2019.02.14
Category data handling  (0) 2019.02.14
kNN model (k-Nearest neighbor model)  (0) 2019.02.13

+ Recent posts