노센스와 함께하는 데이터 분석

데이터과학자, '현장에서 바로 써먹는' 시리즈 저자

분류 전체보기 68

현장에서 바로 써먹는 데이터 분석 with 파이썬

안녕하세요. 저자 김임용(노센스)입니다. 다가오는 30일 제가 집필한 2번째 책(현장에서 바로 써먹는 데이터 분석 with 파이썬)이 세상에 나옵니다. 2021년 8월에 첫 책(현장에서 바로써먹는 데이터 분석 with R)을 출간하고, 다행히도 나름대로의 성과가 나와서 이번 책을 준비할 수 있었습니다. 겨우 1년도 지나지 않았는데 데이터 분석이라는 분야는 더 빠르게 바뀌었고, 활용하는 언어로 R보다는 파이썬(Python)을 선호하게 되었습니다. 아직까지도 고급통계(요인분석, 구조방정식 등) 분야에 있어서는 R의 패키지가 뛰어나지만, 파이썬의 머신러닝 패키지인 사이킷런(scikit-learn)이 너무 강력하고, 편리해 파이썬의 인기가 더 많아진 것 같습니다. 이번 책은 첫 번째 출간한 책과 내용은 거의 동..

(파이썬) 빅데이터분석기사 실기 작업형2 체험하기 코드

파이썬 책 집필을 마치고, 책 내용을 이용해서 빅데이터분석기사 실기 작업형2 체험하기 코드를 한 번 만들어 보았습니다. 해당 코드는 예전에 제가 R로 작성했던 것과 언어만 다를뿐 거의 동일하며 auc는 0.82~0.83 수준으로 R을 이용했을 때 보다 다소 높게 나타났습니다. 오버샘플링(Over Sampling)이 성능 향상에 가장 큰 영향을 미쳤으나 R의 경우는 시험환경에서 Caret 패키지를 제공해 오버샘플링을 쉽게 할 수 있었는데 파이썬의 경우 imblearn 패키지를 제공해주지 않아 해당 패키지 없이 단순히 랜덤 오버 샘플링을 판다스(pandas)를 이용해 구현했습니다. 전체적인 순서는 아래와 같습니다. 1. 결측치 및 이상치 처리, 파생변수 생성 2. 랜덤오버샘플링 3. 분포변환(Standard..

(현바데분with파이썬) 데이터 분석 실습 데이터 셋

안녕하세요. 현장에서 바로 써먹는 데이터분석 with 파이썬의 저자 김임용입니다. 책을 구매해주셔서 감사드리며 실습용 데이터 셋을 다운로드 받아 압축해제 후 사용하시기 바랍니다. 아나콘다(Anaconda) 설치 후 주피터 노트북(Jupyter Notebook)을 실행시키면 기본위치가 "C:\사용자\본인계정명"으로 여기에 첨부파일 다운로드 후 압축해제를 해주시면 자동으로 "C:\사용자\본인계정명\python-study" 폴더가 만들어지면서 해당 폴더에 실습용 데이터 셋이 위치하게 됩니다. 꼭 실습해보시기 바라며 문의사항은 Q&A를 이용해주시기 바랍니다. 감사합니다. ^^

(현바데분withR) R 버전 업에 따른 이슈 공유

안녕하세요. 저자 김임용입니다. 책을 출판하고, 1년이 지나지도 않았는데 R의 생태계에도 다양한 변화가 생겼습니다. 책을 집필할 경우만 하더라도 3.6.3 버전으로 별다른 이슈가 없었으나 2022년 4월을 기준으로 4.2버전까지 나오면서 데이터 타입 인식 및 각종 패키지 호환 문제 등이 발생하고 있습니다. 데이터 타입 문제 특히, 가장 빈번히 발생하는 오류는 "Chapter 6. 분류 및 군집분석"에서 다양한 분류 모델을 이용해 학습시킬 때 발생합니다. 대표적인 오류는 아래와 같습니다. [로지스틱 회귀분석 실행 시 오류] > g_glm c_rf confusionMatrix(c_test$pred5, c_test$breeds) Error in confusionMatrix.default(c_test$pred5..

(파이썬) 주피터 노트북

주피터 노트북(Jupyter Notebook)은 파이썬을 사용자가 쉽게 쓸 수 있도록 도와주는 보조 프로그램입니다. R로 따지면 RStudio와 비슷한 프로그램이라고 생각하면 큰 무리가 없습니다. 주피터 노트북은 아나콘다를 설치하면 자동으로 설치가 됩니다. 실행을 할 때는 권한 문제로 인해 패키지가 설치 안되는 문제가 생길 수 있기 때문에 "관리자 권한으로 실행"합니다. 주피터 노트북을 실행하면 아래와 같이 웹 브라우저를 기반으로 실행됩니다. 우측 상단의 "New" 버튼을 통해 "Python 3"을 선택하면 파이썬 코드를 작성할 수 있는 주피터 노트북 파일(*.ipynb)이 생성됩니다. 아래 빨간색 상자로 표시한 곳을 셀(Cell)이라고 부르며 코드를 입력하는 곳입니다. 파일의 이름은 제목인 "Untit..

(R) 데이터 다루기 - reshape2(melt, cast)

데이터를 다루다 보면 간혹 열을 행으로, 행을 열로 바꿔야할 경우가 있습니다. 데이터량이 적다면 단순 반복작업을 할 수 있지만 데이터량이 많다면 매우 곤란합니다. R에서는 이러한 경우 reshape2라는 패키지의 melt()와 cast() 함수를 이용합니다. 위의 그림과 같이 melt() 함수는 열을 행으로 녹이는(melt) 기능을 하며 반대로 cast() 함수는 행을 열로 주조(cast)하는 기능을 합니다. 실습을 통해 알아보도록 하겠습니다. 먼저 reshape2 패키지를 설치하고 불러온 뒤 airquality 데이터 셋을 a라는 변수에 집어넣도록 하겠습니다. install.packages('reshape2') library(reshape2) a

(R) 특정 버전 패키지 설치하기

R을 이용하다보면 지속적인 버전 업이 되면서 특정 패키지가 과거의 R 버전을 지원하지 않는 경우가 생기거나 반대로 패키지가 R 버전 업을 따라가지 못하고, 그대로 남게되는 경우가 발생합니다. 이러한 문제 때문에 R에서 특정 버전의 패키지를 설치하는 방법을 알아두면 좋습니다. 아래의 사례는 R 3.6.3 버전에서 randomForest 패키지를 설치하려고, 명령어를 입력하였으나 설치가 되지 않은 상태입니다. 그 이유는 R 버전 때문이라고 합니다. 무슨 일인지 R 클랜(https://cran.r-project.org/)에서 확인해보겠습니다. 좌측 메뉴에서 Packages에 들어간 다음 Table of available packages, sorted by name(이름 순으로 정렬된 사용 가능한 패키지 표)를..