본문 바로가기
Data science/Python

Bucketize continuous variable (구간화)

by 연금(Pension)술사 2021. 5. 11.

연속형변수의 구간화(Bucketized)

균등하게 자르는 방법이 있음. 아래와 같이 pandas.cut 메서드를 사용하면 8개의 구간으로 잘려 할당됨

import pandas as pd
from sklearn.datasets import load_iris

data = pd.DataFrame(load_iris()['data'], columns=load_iris()['feature_names'])
pd.cut(data['sepal width (cm)'], 8)

 

0      (3.2, 3.5]
1      (2.9, 3.2]
2      (2.9, 3.2]
3      (2.9, 3.2]
4      (3.5, 3.8]
          ...    
145    (2.9, 3.2]
146    (2.3, 2.6]
147    (2.9, 3.2]
148    (3.2, 3.5]
149    (2.9, 3.2]
Name: sepal width (cm), Length: 150, dtype: category
Categories (8, interval[float64]): [(1.998, 2.3] < (2.3, 2.6] < (2.6, 2.9] < (2.9, 3.2] < (3.2, 3.5] < (3.5, 3.8] < (3.8, 4.1] < (4.1, 4.4]]
반응형