구분하는 3가지 기준
지도/비지도/준지도/강화 학습
온라인 학습 /배치 학습
사례 기반 학습/ 모델 기반 학습
배치학습:
가용한 데이터를 모두 사용해서 훈련시킨 모델. 더 이상의 훈련이 진행되지 않고, 훈련은 주로 리소스를 많이 필요로 하기 때문에, 오프라인 학습이라고도 한다. 배치학습을 새롭게 업데이트 하려면, 이전에 훈련된 데이터를 포함하여 더 많은 데이터를 이용해서, 새롭게 모델을 학습시킨다음에 모델을 교체(replace)해야한다.
온라인 학습
데이터를 순차적으로 한 개씩 또는 Mini-batch라 불리는 작은 묶음 단위로 주입하여 훈련하는 시스템이다. 작은 단위씩 학습 되기 때문에, 학습에 들어가는 리소스가 적은 편이고, 데이터를 수집하고 모델이 들어가는만큼 바로 학습이 된다. 모델의 학습이 즉각적으로 이용되어야하는 상황에 이용이 가능하다. e.g) 주가 예측
사례 기반 학습과 모델 기반 학습
다중 분류
One-versus-all (one-versus-the rest, OVA) 전략.
SVM과 logistic regression 과 같은 알고리즘은 이진 분류기인데, 이 분류기를 통해, Label이 여러가지인 분류 (다중분류)도 가능하다. 이 전략이 OVA전략이다. 예를 들어서, digit image 10개 중에 0이냐 아니냐를 분류하는 분류기 1, 1이냐 1이 아니냐를 분류하는 분류기 2 등... 총 10개의 숫자에 대해서 분류기를 만들어놓고, 실제 분류할 때 분류기의 결정 점수중에서 가장 높은 클래스의 분류를 선택하면 된다. 이를 OVA라고 한다.
One-vursus-one (OvO)
0과 1의 구별, 0과 2의 구별 등... 각 모든 조합마다 이진분류기를 만들어 놓으면 이를 OvO 전략이라고 한다.
분류하고자 하는 클래스가 N개이면 , N * (N-1)/2개가 필요하다. (nC2). 장점은 각 분류기으 ㅣ훈련에 전체 훈련 세트중 구별할 두 클래스에 해당하는 샘플만 필요하다는 것이다. 여러 잡다구리한 샘플은 필요없다. SVM과 같은 일부 알고리즘은 큰 데이터세트에는 민감해서, 차라리 작은 훈련세트에서 많은 분류기를 훈련시키는 쪽으로하면 빠르다.
'Data science' 카테고리의 다른 글
Undersampleing & Oversampling (0) | 2019.07.08 |
---|---|
Regular expression (0) | 2019.03.12 |
Reshape and Pivot table (0) | 2019.03.08 |
SVM (Support Vector machine) (0) | 2019.02.23 |
Decision Tree (의사결정나무) (2) | 2019.02.15 |