자동머신러닝(rAutoML) R패키지 개발

2018/06/13

데이터 분석은 1) 데이터 전처리 영역과 2) 모델링 영역으로 구분할 수 있습니다. DS랩에서 개발한 rAutoML(Auto Machine Learning in R)은 모델링 영역을 자동화 해주는 R패키지 입니다. 현재(2018-06) rAutoML에서 제공하는 머신러닝 알고리즘은 H2OGBM이고 추후 H2ORF, H2OXGB 등 추가 될 예정입니다.


rAutoML의 학습 프로세스는 다음과 같습니다.

  1. H2OGBM_Default : 디폴트 모형 생성
  2. H2OGBM_StopRules : 학습 스탑 규칙 결정 (Cartesian Grid Search)
  3. H2OGBM_CatEncode : 범주형 변수의 최적의 전처리 방법 탐색 (Cartesian Grid Search)
  4. H2OGBM_MaxDepth : max_depth의 최적의 범위 탐색 (Cartesian Grid Search)
  5. H2OGBM_Random : learn_rate, sample_rate, col_sample_rate, min_rows의 최적값 탐색 (Random Grid Search)
  6. H2OGBM_Bayesian : 소수점 단위로 정밀 튜닝 (Bayesian Grid Search)


H2OGBM_Default -> H2OGBM_StopRules -> H2OGBM_CatEncode -> H2OGBM_MaxDepth -> H2OGBM_Random -> H2OGBM_Bayesian


rAutoML패키기를 사용한 GBM모형 튜닝 결과

models auc logloss
H2OGBM_Default 0.9136564 0.2006527
H2OGBM_StopRules 0.8995600 0.2097254
H2OGBM_CatEncode 0.9154616 0.1566602
H2OGBM_MaxDepth 0.9166058 0.1754864
H2OGBM_Random 0.9225640 0.1522216
H2OGBM_Bayesian 0.9262237 0.1591523


학습 데이터 소개

  • churn dataset
  • 3333 rows
  • Y is binary, X consists of 15 numeric and 4 categorical features
  • 출처 : yhat (https://github.com/yhat/demo-churn-pred/blob/master/model/churn.csv)


rAutoML패키지 설치 방법

library(devtools)
install_github("2econsulting/rAutoML")
library(rAutoML)
-->