Data science/Python
Bucketize continuous variable (구간화)
연금(Pension)술사
2021. 5. 11. 16:09
연속형변수의 구간화(Bucketized)
균등하게 자르는 방법이 있음. 아래와 같이 pandas.cut 메서드를 사용하면 8개의 구간으로 잘려 할당됨
import pandas as pd
from sklearn.datasets import load_iris
data = pd.DataFrame(load_iris()['data'], columns=load_iris()['feature_names'])
pd.cut(data['sepal width (cm)'], 8)
0 (3.2, 3.5]
1 (2.9, 3.2]
2 (2.9, 3.2]
3 (2.9, 3.2]
4 (3.5, 3.8]
...
145 (2.9, 3.2]
146 (2.3, 2.6]
147 (2.9, 3.2]
148 (3.2, 3.5]
149 (2.9, 3.2]
Name: sepal width (cm), Length: 150, dtype: category
Categories (8, interval[float64]): [(1.998, 2.3] < (2.3, 2.6] < (2.6, 2.9] < (2.9, 3.2] < (3.2, 3.5] < (3.5, 3.8] < (3.8, 4.1] < (4.1, 4.4]]
반응형