pandas 범주형자료1 Category data handling 대부분 우리가 알고있는 데이터의 형태는 Label encoding이다. 예를 들어서, 나라이름과 같이 나라이름이 명시적으로 기록되어있는 경우가 Label encoding이다. 그러나 이는 분석 단계에서는 Label encoding은 String dtype으로 분석 단계에서 계산하기에는 어렵다. 계산가능한 타입으로 만들어야 분석에서 사용할 수 있기 때문이다. 결과변수가 array 형태를 원한다면 sklearn.preprocessing 을 이용한다. 카테고리의 개수만큼 만들지말고 ,N-1개 만큼 만드는것을 추천한다. 추후에 선형회귀 등을 돌릴 때 변수를 N개로 만들면, n개에 대한 식이 생겨서 다중공선성이 생깄다. 예를 들어 3변수를 만들면, x1+x2+x3 = 1이라는 식이 있기에 공선성이 생길수밖에 없다.. 2019. 2. 14. 이전 1 다음