연속형변수의 구간화(Bucketized)
균등하게 자르는 방법이 있음. 아래와 같이 pandas.cut 메서드를 사용하면 8개의 구간으로 잘려 할당됨
import pandas as pd
from sklearn.datasets import load_iris
data = pd.DataFrame(load_iris()['data'], columns=load_iris()['feature_names'])
pd.cut(data['sepal width (cm)'], 8)
0 (3.2, 3.5]
1 (2.9, 3.2]
2 (2.9, 3.2]
3 (2.9, 3.2]
4 (3.5, 3.8]
...
145 (2.9, 3.2]
146 (2.3, 2.6]
147 (2.9, 3.2]
148 (3.2, 3.5]
149 (2.9, 3.2]
Name: sepal width (cm), Length: 150, dtype: category
Categories (8, interval[float64]): [(1.998, 2.3] < (2.3, 2.6] < (2.6, 2.9] < (2.9, 3.2] < (3.2, 3.5] < (3.5, 3.8] < (3.8, 4.1] < (4.1, 4.4]]
반응형
'Data science > Python' 카테고리의 다른 글
Python stuck사용법 (16진법) (0) | 2021.08.01 |
---|---|
pytest 사용법 및 예제 (0) | 2021.07.08 |
Numpy matrix operation (dot, matmul, multiply) 설명 (0) | 2021.04.06 |
[Jupyter notebook] 가상환경 커널 이용하기 (0) | 2021.02.09 |
[Pycharm] Docstring 기본 세팅 (0) | 2021.02.06 |