이전에 데이터 전문가포럼 카페(http://naver.me/56YqXoRv)에 올린 제 합격수기를 공유해봅니다.
우선 저는 현업에서 10년이 넘는 기간 동안 데이터분석 업무를 수행하고 있으며, 작년(2021년) 8월에 R 서적을 출간하기도 했습니다.
파이썬 보다는 R이 도움말을 사용할 수 있고, 함수명이 짧기 때문에 시험에 유리해서 R로 응시했습니다. R에서 ?나 help()를 이용해 도움말을 찾아볼 수 있는 것은 구글링을 하는 것과 유사한 수준의 장점이라고 생각하며 R의 경우 각종 패키지나 함수의 사용법에 예제까지 포함되어있기 때문에 함수 사용법이 제대로 기억나지 않더라도 도움말의 예제를 보면 충분히 문제를 해결할 수 있습니다.
[단답형]
개인적으로 단답형의 경우가 작업형 보다 더 어려울 것으로 생각되어 "수제비 2022 빅데이터분석기사 실기" 책을 사서 이론을 다시 한 번 정리하면서 공부했습니다. 제3회 단답형의 난이도가 제2회 대비 너무 올라갔고, 다소 애매한 문제들이 있어 다 맞히지 못했습니다. 이 부분은 이론 공부를 제대로 하는 수 밖에 방법이 없는 것 같습니다.
[작업형1]
"수제비 2022 빅데이터분석기사 실기" 책으로 공부를 했으며 충분한 예제가 있어서 도움이 되었습니다. 다만 해당 문제집에서 제시한 정답 코드가 제 스타일과 맞진 않아 문제만 활용했습니다. (실제 오타가 제법있어서 초보자분들께서는 해맬 수 있다고 생각되었습니다.)
작업형1에서는 데이터를 다룰 수 있는 능력을 보기 때문에 R의 경우 dplyr(필터링, 집계), reshape2(구조변경) 패키지 사용법과 정렬, 결측치처리, 분포 변환만 공부하시면 큰 어려움이 없습니다.
[작업형2]
작업형2의 경우도 "수제비 2022 빅데이터분석기사 실기" 책으로 공부를 하려고 했으나 분류 문제를 회귀로 푸는 등의 엉터리 정답 코드로 인해 차마 볼 수가 없었습니다. (다음 책에서는 이러한 부분이 개선되길 바랍니다.) 그래서 그냥 데이터진흥원에서 체험하기로 제공해준 사례만 공부했습니다.
작업형2에서는 현재까지 비대칭(imbalanced) 데이터의 이진분류(binary classification) 문제를 제시하고 있습니다. 이를 해결하기 위해서는 기본적으로 아래와 같은 절차와 방법을 수행할 수 있어야 합니다.
① 데이터 전처리(결측치 또는 이상치 제거나 대체)
② 파생변수 생성
③ 데이터 불균형 해소(Over Sampling)
④ 분포 변환(데이터의 산포에 따라 Min-Max, Standard, Robust Scale 사용)
⑤ 모델링(랜덤포레스트 추천)
⑥ 성능 확인(auc)
⑦ test셋 예측값(class 또는 probability) 생성
⑧ 제시된 형태로 답안 만들기
모델링의 경우 보편적으로 뛰어난 성능을 나타내고, 하이퍼파라미터 튜닝도 쉬운 랜덤포레스트를 추천하며 auc의 경우 pROC 패키지를 이용하면 매우 간단하게 구할 수 있기 때문에 해당 패키지 사용을 추천드립니다.
위에 방법과 같이 시험보기 전에 공부해본 작업형2 코드는 아래 제 포스팅에서 확인해볼 수 있습니다.
https://datawithnosense.tistory.com/40
앞으로 회귀나 다항분류(multiclass classification) 문제도 등장하지 않을까 생각되며 이에 따른 준비도 하는게 좋지 않을까 생각됩니다.
감사합니다.
'데이터 분석 분야 정보' 카테고리의 다른 글
국가공인 데이터 분석 자격증 소개 및 합격률 (0) | 2021.11.18 |
---|---|
데이터 분석 분야 외국계기업 채용 직무기술서 알아보기 (0) | 2020.10.14 |
데이터 분석 분야 공기업 채용 직무기술서 알아보기 (0) | 2020.10.14 |
데이터 분석 분야 대기업 채용 직무기술서 알아보기 (0) | 2020.10.14 |