노센스와 함께하는 데이터 분석

데이터과학자, '현장에서 바로 써먹는' 시리즈 저자

전체 글 67

(파이썬) 빅데이터분석기사 실기 작업형2 체험하기 코드

파이썬 책 집필을 마치고, 책 내용을 이용해서 빅데이터분석기사 실기 작업형2 체험하기 코드를 한 번 만들어 보았습니다. 해당 코드는 예전에 제가 R로 작성했던 것과 언어만 다를뿐 거의 동일하며 auc는 0.82~0.83 수준으로 R을 이용했을 때 보다 다소 높게 나타났습니다. 오버샘플링(Over Sampling)이 성능 향상에 가장 큰 영향을 미쳤으나 R의 경우는 시험환경에서 Caret 패키지를 제공해 오버샘플링을 쉽게 할 수 있었는데 파이썬의 경우 imblearn 패키지를 제공해주지 않아 해당 패키지 없이 단순히 랜덤 오버 샘플링을 판다스(pandas)를 이용해 구현했습니다. 전체적인 순서는 아래와 같습니다. 1. 결측치 및 이상치 처리, 파생변수 생성 2. 랜덤오버샘플링 3. 분포변환(Standard..

(현바데분with파이썬) 데이터 분석 실습 데이터 셋

안녕하세요. 현장에서 바로 써먹는 데이터분석 with 파이썬의 저자 김임용입니다. 책을 구매해주셔서 감사드리며 실습용 데이터 셋을 다운로드 받아 압축해제 후 사용하시기 바랍니다. 아나콘다(Anaconda) 설치 후 주피터 노트북(Jupyter Notebook)을 실행시키면 기본위치가 "C:\사용자\본인계정명"으로 여기에 첨부파일 다운로드 후 압축해제를 해주시면 자동으로 "C:\사용자\본인계정명\python-study" 폴더가 만들어지면서 해당 폴더에 실습용 데이터 셋이 위치하게 됩니다. 꼭 실습해보시기 바라며 문의사항은 Q&A를 이용해주시기 바랍니다. 감사합니다. ^^

(현바데분withR) R 버전 업에 따른 이슈 공유

안녕하세요. 저자 김임용입니다. 책을 출판하고, 1년이 지나지도 않았는데 R의 생태계에도 다양한 변화가 생겼습니다. 책을 집필할 경우만 하더라도 3.6.3 버전으로 별다른 이슈가 없었으나 2022년 4월을 기준으로 4.2버전까지 나오면서 데이터 타입 인식 및 각종 패키지 호환 문제 등이 발생하고 있습니다. 데이터 타입 문제 특히, 가장 빈번히 발생하는 오류는 "Chapter 6. 분류 및 군집분석"에서 다양한 분류 모델을 이용해 학습시킬 때 발생합니다. 대표적인 오류는 아래와 같습니다. [로지스틱 회귀분석 실행 시 오류] > g_glm c_rf confusionMatrix(c_test$pred5, c_test$breeds) Error in confusionMatrix.default(c_test$pred5..

(파이썬) 주피터 노트북

주피터 노트북(Jupyter Notebook)은 파이썬을 사용자가 쉽게 쓸 수 있도록 도와주는 보조 프로그램입니다. R로 따지면 RStudio와 비슷한 프로그램이라고 생각하면 큰 무리가 없습니다. 주피터 노트북은 아나콘다를 설치하면 자동으로 설치가 됩니다. 실행을 할 때는 권한 문제로 인해 패키지가 설치 안되는 문제가 생길 수 있기 때문에 "관리자 권한으로 실행"합니다. 주피터 노트북을 실행하면 아래와 같이 웹 브라우저를 기반으로 실행됩니다. 우측 상단의 "New" 버튼을 통해 "Python 3"을 선택하면 파이썬 코드를 작성할 수 있는 주피터 노트북 파일(*.ipynb)이 생성됩니다. 아래 빨간색 상자로 표시한 곳을 셀(Cell)이라고 부르며 코드를 입력하는 곳입니다. 파일의 이름은 제목인 "Untit..

(R) 데이터 다루기 - reshape2(melt, cast)

데이터를 다루다 보면 간혹 열을 행으로, 행을 열로 바꿔야할 경우가 있습니다. 데이터량이 적다면 단순 반복작업을 할 수 있지만 데이터량이 많다면 매우 곤란합니다. R에서는 이러한 경우 reshape2라는 패키지의 melt()와 cast() 함수를 이용합니다. 위의 그림과 같이 melt() 함수는 열을 행으로 녹이는(melt) 기능을 하며 반대로 cast() 함수는 행을 열로 주조(cast)하는 기능을 합니다. 실습을 통해 알아보도록 하겠습니다. 먼저 reshape2 패키지를 설치하고 불러온 뒤 airquality 데이터 셋을 a라는 변수에 집어넣도록 하겠습니다. install.packages('reshape2') library(reshape2) a

(R) 특정 버전 패키지 설치하기

R을 이용하다보면 지속적인 버전 업이 되면서 특정 패키지가 과거의 R 버전을 지원하지 않는 경우가 생기거나 반대로 패키지가 R 버전 업을 따라가지 못하고, 그대로 남게되는 경우가 발생합니다. 이러한 문제 때문에 R에서 특정 버전의 패키지를 설치하는 방법을 알아두면 좋습니다. 아래의 사례는 R 3.6.3 버전에서 randomForest 패키지를 설치하려고, 명령어를 입력하였으나 설치가 되지 않은 상태입니다. 그 이유는 R 버전 때문이라고 합니다. 무슨 일인지 R 클랜(https://cran.r-project.org/)에서 확인해보겠습니다. 좌측 메뉴에서 Packages에 들어간 다음 Table of available packages, sorted by name(이름 순으로 정렬된 사용 가능한 패키지 표)를..

(R) 데이터 다루기 - dplyr 패키지

R의 기본 함수인 subset()은 데이터 필터링에는 적합하지만 데이터를 집계(aggregation)하거나 합치기(join) 위해서는 다른 함수를 이용해야합니다. 다른 내장 기본함수를 공부하는 것보다 dplyr 패키지 하나만 잘 이용하면 데이터를 가공하는 대부분의 일을 할 수 있기에 해당 패키지 하나만 제대로 익히는 것을 추천드립니다. 앞선 예제와 동일하게 iris 데이터 셋을 이용해 데이터를 필터링해보고, 집계 및 합치기 실습을 해보겠습니다. dplyr 패키지를 사용하기에 앞서 파이프라인(pipeline) 연산자라는 것을 알아야합니다. RStudio에서 파이프라인 연산자(%>%)는 Ctrl + Shift + M키를 동시에 누르면 입력할 수 있습니다. 파이프라인 연산자는 쉽게 말해 파이프가 연결된 것처럼..