데이터 분석은 1) 데이터 전처리 영역과 2) 모델링 영역으로 구분할 수 있습니다. DS랩에서 개발한 rAutoML(Auto Machine Learning in R)은 모델링 영역을 자동화 해주는 R패키지 입니다. 현재(2018-06) rAutoML에서 제공하는 머신러닝 알고리즘은 H2OGBM이고 추후 H2ORF, H2OXGB 등 추가 될 예정입니다.
rAutoML의 학습 프로세스는 다음과 같습니다.
- H2OGBM_Default : 디폴트 모형 생성
- H2OGBM_StopRules : 학습 스탑 규칙 결정 (Cartesian Grid Search)
- H2OGBM_CatEncode : 범주형 변수의 최적의 전처리 방법 탐색 (Cartesian Grid Search)
- H2OGBM_MaxDepth : max_depth의 최적의 범위 탐색 (Cartesian Grid Search)
- H2OGBM_Random : learn_rate, sample_rate, col_sample_rate, min_rows의 최적값 탐색 (Random Grid Search)
- H2OGBM_Bayesian : 소수점 단위로 정밀 튜닝 (Bayesian Grid Search)
H2OGBM_Default -> H2OGBM_StopRules -> H2OGBM_CatEncode -> H2OGBM_MaxDepth -> H2OGBM_Random -> H2OGBM_Bayesian
rAutoML패키기를 사용한 GBM모형 튜닝 결과
models | auc | logloss |
---|---|---|
H2OGBM_Default | 0.9136564 | 0.2006527 |
H2OGBM_StopRules | 0.8995600 | 0.2097254 |
H2OGBM_CatEncode | 0.9154616 | 0.1566602 |
H2OGBM_MaxDepth | 0.9166058 | 0.1754864 |
H2OGBM_Random | 0.9225640 | 0.1522216 |
H2OGBM_Bayesian | 0.9262237 | 0.1591523 |
학습 데이터 소개
- churn dataset
- 3333 rows
- Y is binary, X consists of 15 numeric and 4 categorical features
- 출처 : yhat (https://github.com/yhat/demo-churn-pred/blob/master/model/churn.csv)
rAutoML패키지 설치 방법
library(devtools)
install_github("2econsulting/rAutoML")
library(rAutoML)