딥러닝 vs Random forest1 [5분 요약] 딥러닝이 정형데이터에서 성능이 낮은 이유: Why do tree-based models still outperform deep learning on tabular data? 요약 일반적으로 딥러닝이 텍스트나, 이미지 데이터셋에서의 고성능을 보이지만, 정형데이터(Tabular dataset)에서 성능이 우월한지는 잘 밝혀지지 않았습니다. 오히려 안좋은 경우도 있습니다. 이 논문은 실제로 그런지 딥러닝과 트리기반모델(RF / XGBoost)을 비교했고, 뉴럴넷(NN)이 성능이 그렇지 좋지 못하였다는 실험결과를 보여줍니다. 그리고, 이 이유에 대해서는 아래와 같이 설명합니다. 정보량이 별로 없는 특징값에 대해서도 강건하다는 것(robust) 데이터 방향(orientation을 유지해서) 학습이 잘 되도록 한다는 것 비정형적인 함수도 쉽게 학습이 된다는 것입니다(딱딱 끊기는 함수도 학습이 잘됨). Preliminary Inductive bias: 훈련되어지지 않은 입력에 출력을 예.. 2023. 4. 26. 이전 1 다음