파이썬 책 집필을 마치고, 책 내용을 이용해서 빅데이터분석기사 실기 작업형2 체험하기 코드를 한 번 만들어 보았습니다. 해당 코드는 예전에 제가 R로 작성했던 것과 언어만 다를뿐 거의 동일하며 auc는 0.82~0.83 수준으로 R을 이용했을 때 보다 다소 높게 나타났습니다. 오버샘플링(Over Sampling)이 성능 향상에 가장 큰 영향을 미쳤으나 R의 경우는 시험환경에서 Caret 패키지를 제공해 오버샘플링을 쉽게 할 수 있었는데 파이썬의 경우 imblearn 패키지를 제공해주지 않아 해당 패키지 없이 단순히 랜덤 오버 샘플링을 판다스(pandas)를 이용해 구현했습니다. 전체적인 순서는 아래와 같습니다. 1. 결측치 및 이상치 처리, 파생변수 생성 2. 랜덤오버샘플링 3. 분포변환(Standard..