노센스와 함께하는 데이터 분석

데이터과학자, '현장에서 바로 써먹는' 시리즈 저자

r 13

(R) 데이터 다루기 - reshape2(melt, cast)

데이터를 다루다 보면 간혹 열을 행으로, 행을 열로 바꿔야할 경우가 있습니다. 데이터량이 적다면 단순 반복작업을 할 수 있지만 데이터량이 많다면 매우 곤란합니다. R에서는 이러한 경우 reshape2라는 패키지의 melt()와 cast() 함수를 이용합니다. 위의 그림과 같이 melt() 함수는 열을 행으로 녹이는(melt) 기능을 하며 반대로 cast() 함수는 행을 열로 주조(cast)하는 기능을 합니다. 실습을 통해 알아보도록 하겠습니다. 먼저 reshape2 패키지를 설치하고 불러온 뒤 airquality 데이터 셋을 a라는 변수에 집어넣도록 하겠습니다. install.packages('reshape2') library(reshape2) a

(R) 특정 버전 패키지 설치하기

R을 이용하다보면 지속적인 버전 업이 되면서 특정 패키지가 과거의 R 버전을 지원하지 않는 경우가 생기거나 반대로 패키지가 R 버전 업을 따라가지 못하고, 그대로 남게되는 경우가 발생합니다. 이러한 문제 때문에 R에서 특정 버전의 패키지를 설치하는 방법을 알아두면 좋습니다. 아래의 사례는 R 3.6.3 버전에서 randomForest 패키지를 설치하려고, 명령어를 입력하였으나 설치가 되지 않은 상태입니다. 그 이유는 R 버전 때문이라고 합니다. 무슨 일인지 R 클랜(https://cran.r-project.org/)에서 확인해보겠습니다. 좌측 메뉴에서 Packages에 들어간 다음 Table of available packages, sorted by name(이름 순으로 정렬된 사용 가능한 패키지 표)를..

(R) 데이터 다루기 - dplyr 패키지

R의 기본 함수인 subset()은 데이터 필터링에는 적합하지만 데이터를 집계(aggregation)하거나 합치기(join) 위해서는 다른 함수를 이용해야합니다. 다른 내장 기본함수를 공부하는 것보다 dplyr 패키지 하나만 잘 이용하면 데이터를 가공하는 대부분의 일을 할 수 있기에 해당 패키지 하나만 제대로 익히는 것을 추천드립니다. 앞선 예제와 동일하게 iris 데이터 셋을 이용해 데이터를 필터링해보고, 집계 및 합치기 실습을 해보겠습니다. dplyr 패키지를 사용하기에 앞서 파이프라인(pipeline) 연산자라는 것을 알아야합니다. RStudio에서 파이프라인 연산자(%>%)는 Ctrl + Shift + M키를 동시에 누르면 입력할 수 있습니다. 파이프라인 연산자는 쉽게 말해 파이프가 연결된 것처럼..

(R) 데이터 다루기 - subset

이제 불러온 데이터를 다루는 방법에 대해서 설명드리겠습니다. 일반적으로 데이터를 다룰 때 가장 널리 사용되는 패키지는 dplyr이 있지만 기본 함수인 subset만으로도 충분히 데이터를 다루는 일이 가능하기 때문에 subset() 함수에 대해서 우선 설명드리겠습니다. 우선 데이터 셋으로 사용할 iris라는 데이터 셋에 대해서 먼저 설명드리겠습니다. iris는 붓꽃을 의미하며 붓꽃의 종류(Species)별 특징을 기록해놓은 데이터 셋이 되겠습니다. 아래와 같이 총 3종류에 꽃받침(Sepal), 꽃잎(Petal) 길이(Length)와 넓이(Width)를 종류별 50개씩 기록했습니다. iris 데이터 셋은 R에서 기본적으로 내장하고 있으므로 그냥 iris라고 입력하고, 실행(Ctrl + Enter)하면 바로 ..

(R) 데이터 불러오기 및 내보내기

R에서 데이터를 불러오기 위해서는 불러오는 파일, DB 등의 형태에 따라 명령어가 다양합니다. 파일형태의 경우 열이 콤마로 구분되는 csv(comma-seperated values) 형태가 주를 이루기 때문에 csv파일을 불러오는 방법을 설명드리겠습니다. 가정 먼저 설정해줘야하는 부분은 작업 디렉토리(Working Directory) 설정 입니다. 작업 디렉토리를 설정하는 방법은 크게 2가지로 프로젝트를 만들던가, 우측 하단의 Files 탭을 이용해 폴더를 지정해서 작업 디렉토리로 설정할 수 있습니다. 자세한 부분은 아래 포스트를 참고해주세요. https://datawithnosense.tistory.com/35 (R) RStudio 기본 사용법 [ 설치 PC 기본정보 ] ● OS : windows 10..

(R) 패키지 설치하기 및 불러오기

R에서 패키지는 전 세계 사용자들이 만들어놓은 함수로 이해하시면 편합니다. 엑셀이 강력한 이유가 SUMIF(), VLOOKUP(), INDEX() 등 함수를 이용해서 다양한 기능을 할 수 있는 것처럼 R이 강력한 이유도 바로 이 패키지 덕분입니다. R에는 엑셀의 함수 같은 게 18,000개 이상 있습니다. 이 패키지들을 이용하면 수십, 수백줄의 코드를 하나씩 구현하지 않아도 단 몇줄의 코드로 원하는 알고리즘을 구현할 수 있습니다. RStudio에서 패키지를 설치하기 위해서는 설치되는 경로가 이원화되지 않게 하기 위해 RStudio 실행 시 "관리자 권한으로 실행"해야 합니다. 그렇지 않으면 권한이 없어 R이 설치된 폴더의 Library 폴더에 패키지가 설치되지 않습니다. 패키지 설치 명령어는 아래와 같습..

(현바데분withR) 패키지 리스트

책에서 실습으로 사용되는 패키지 리스트 입니다. 한 번에 다 설치해놓으면 실습에서 패키지를 하나씩 다 설치할 필요가 없습니다. 감사합니다. [실습 패키지 리스트] DMwR2, openxlsx, RColorBrewer, corrplot, corrgram, corrr, caret, Epi, e1071, rpart, rpart.plot, adabag, randomForest, xgboost, cluster, nnet, h2o, keras, tensorflow, KoNLP, hash, rJava, tau, Sejong, RSQLite, devtools, multilinguer, remotes, wordcloud, readr, SentimentAnalysis, stringr, tm, RPostgres, sqldf..

현장에서 바로써먹는 데이터 분석 with R

안녕하세요. 제가 작년(2020년) 10월부터 준비한 책이 드디어 세상에 나왔습니다. 데이터 분석업무를 10년 넘게 하면서 쌓은 노하우를 한 권의 책에 담았습니다. 책 제목은 "현장에서 바로써먹는 데이터 분석 with R" 입니다. 처음 쓰는 책이라 부족한 점이 많습니다. 하지만 시중의 어떤 책보다 쉽게 데이터 분석이라는 분야에 접근할 수 있게 만든 책이라는 것은 확실히 보장할 수 있습니다. 꼭 데이터 분석이라는 기술적인 측면 외에도 해당 분야의 이론과 배경지식을 쌓는데도 도움이 될 수 있게 만들었으며 실습을 위한 도구로 R을 선택했을뿐 꼭 R을 위한 책은 아닙니다. 본질은 데이터 분석이라는 기술이며 그 기술을 구현하기 위해 R이라는 도구를 썼을 뿐입니다. 기회가 된다면 Python(파이썬) 코드로 책을..