노센스와 함께하는 데이터 분석

데이터과학자, '현장에서 바로 써먹는' 시리즈 저자

(R) 데이터 분석 실습 10

(R) 데이터 다루기 - reshape2(melt, cast)

데이터를 다루다 보면 간혹 열을 행으로, 행을 열로 바꿔야할 경우가 있습니다. 데이터량이 적다면 단순 반복작업을 할 수 있지만 데이터량이 많다면 매우 곤란합니다. R에서는 이러한 경우 reshape2라는 패키지의 melt()와 cast() 함수를 이용합니다. 위의 그림과 같이 melt() 함수는 열을 행으로 녹이는(melt) 기능을 하며 반대로 cast() 함수는 행을 열로 주조(cast)하는 기능을 합니다. 실습을 통해 알아보도록 하겠습니다. 먼저 reshape2 패키지를 설치하고 불러온 뒤 airquality 데이터 셋을 a라는 변수에 집어넣도록 하겠습니다. install.packages('reshape2') library(reshape2) a

(R) 특정 버전 패키지 설치하기

R을 이용하다보면 지속적인 버전 업이 되면서 특정 패키지가 과거의 R 버전을 지원하지 않는 경우가 생기거나 반대로 패키지가 R 버전 업을 따라가지 못하고, 그대로 남게되는 경우가 발생합니다. 이러한 문제 때문에 R에서 특정 버전의 패키지를 설치하는 방법을 알아두면 좋습니다. 아래의 사례는 R 3.6.3 버전에서 randomForest 패키지를 설치하려고, 명령어를 입력하였으나 설치가 되지 않은 상태입니다. 그 이유는 R 버전 때문이라고 합니다. 무슨 일인지 R 클랜(https://cran.r-project.org/)에서 확인해보겠습니다. 좌측 메뉴에서 Packages에 들어간 다음 Table of available packages, sorted by name(이름 순으로 정렬된 사용 가능한 패키지 표)를..

(R) 데이터 다루기 - dplyr 패키지

R의 기본 함수인 subset()은 데이터 필터링에는 적합하지만 데이터를 집계(aggregation)하거나 합치기(join) 위해서는 다른 함수를 이용해야합니다. 다른 내장 기본함수를 공부하는 것보다 dplyr 패키지 하나만 잘 이용하면 데이터를 가공하는 대부분의 일을 할 수 있기에 해당 패키지 하나만 제대로 익히는 것을 추천드립니다. 앞선 예제와 동일하게 iris 데이터 셋을 이용해 데이터를 필터링해보고, 집계 및 합치기 실습을 해보겠습니다. dplyr 패키지를 사용하기에 앞서 파이프라인(pipeline) 연산자라는 것을 알아야합니다. RStudio에서 파이프라인 연산자(%>%)는 Ctrl + Shift + M키를 동시에 누르면 입력할 수 있습니다. 파이프라인 연산자는 쉽게 말해 파이프가 연결된 것처럼..

(R) 빅데이터분석기사 실기 작업형2 체험하기 코드

빅데이터분석기사 3회차 실기가 몇 일 남지 않은 상황에서 공부한 내용을 공유해 봅니다. 실시시험의 작업형2가 40점으로 가장 큰 배점을 차지하며, R이나 파이썬을 처음 접하는 분들께는 꽤나 어렵지 않을까 생각됩니다. 다행히도 한국데이터산업진흥원에서 실기시험을 체험해 볼 수 있는 링크를 제공해줘서 작업형2를 풀어보았습니다. https://dataq.goorm.io/exam/116674/%EC%B2%B4%ED%97%98%ED%95%98%EA%B8%B0/quiz/3 구름EDU - 모두를 위한 맞춤형 IT교육 구름EDU는 모두를 위한 맞춤형 IT교육 플랫폼입니다. 개인/학교/기업 및 기관 별 최적화된 IT교육 솔루션을 경험해보세요. 기초부터 실무 프로그래밍 교육, 전국 초중고/대학교 온라인 강의, 기업/ edu..

(R) 데이터 다루기 - subset

이제 불러온 데이터를 다루는 방법에 대해서 설명드리겠습니다. 일반적으로 데이터를 다룰 때 가장 널리 사용되는 패키지는 dplyr이 있지만 기본 함수인 subset만으로도 충분히 데이터를 다루는 일이 가능하기 때문에 subset() 함수에 대해서 우선 설명드리겠습니다. 우선 데이터 셋으로 사용할 iris라는 데이터 셋에 대해서 먼저 설명드리겠습니다. iris는 붓꽃을 의미하며 붓꽃의 종류(Species)별 특징을 기록해놓은 데이터 셋이 되겠습니다. 아래와 같이 총 3종류에 꽃받침(Sepal), 꽃잎(Petal) 길이(Length)와 넓이(Width)를 종류별 50개씩 기록했습니다. iris 데이터 셋은 R에서 기본적으로 내장하고 있으므로 그냥 iris라고 입력하고, 실행(Ctrl + Enter)하면 바로 ..

(R) 데이터 불러오기 및 내보내기

R에서 데이터를 불러오기 위해서는 불러오는 파일, DB 등의 형태에 따라 명령어가 다양합니다. 파일형태의 경우 열이 콤마로 구분되는 csv(comma-seperated values) 형태가 주를 이루기 때문에 csv파일을 불러오는 방법을 설명드리겠습니다. 가정 먼저 설정해줘야하는 부분은 작업 디렉토리(Working Directory) 설정 입니다. 작업 디렉토리를 설정하는 방법은 크게 2가지로 프로젝트를 만들던가, 우측 하단의 Files 탭을 이용해 폴더를 지정해서 작업 디렉토리로 설정할 수 있습니다. 자세한 부분은 아래 포스트를 참고해주세요. https://datawithnosense.tistory.com/35 (R) RStudio 기본 사용법 [ 설치 PC 기본정보 ] ● OS : windows 10..

(R) 패키지 설치하기 및 불러오기

R에서 패키지는 전 세계 사용자들이 만들어놓은 함수로 이해하시면 편합니다. 엑셀이 강력한 이유가 SUMIF(), VLOOKUP(), INDEX() 등 함수를 이용해서 다양한 기능을 할 수 있는 것처럼 R이 강력한 이유도 바로 이 패키지 덕분입니다. R에는 엑셀의 함수 같은 게 18,000개 이상 있습니다. 이 패키지들을 이용하면 수십, 수백줄의 코드를 하나씩 구현하지 않아도 단 몇줄의 코드로 원하는 알고리즘을 구현할 수 있습니다. RStudio에서 패키지를 설치하기 위해서는 설치되는 경로가 이원화되지 않게 하기 위해 RStudio 실행 시 "관리자 권한으로 실행"해야 합니다. 그렇지 않으면 권한이 없어 R이 설치된 폴더의 Library 폴더에 패키지가 설치되지 않습니다. 패키지 설치 명령어는 아래와 같습..

(R) RStudio 기본 사용법

[ 설치 PC 기본정보 ] ● OS : windows 10 ● GPU : Nvidia GeForce GTX 1060 3GB ● CPU : Intel(R) Core(TM) i5-6500 (3.2GHz) ● RAM : 16GB ● R 3.6.3 / RStudio 1.4.1106 RStudio는 R을 사용자가 좀 더 쉽고, 편리하게 사용할 수 있도록 도와주는 프로그램입니다. RStudio를 처음으로 실행하면 아래와 같은 화면이 나옵니다. 여기서 빨간색 상자로 표시한 아이콘을 클릭하면 스크립트 창이 펼쳐집니다. 이렇게 스크립트 창이 열리며 아래와 같이 크게 4개의 화면 구성이 펼쳐집니다. 좌측 상단의 스크립트 창은 코드를 입력하는 곳이고, 이 코드를 파일 형태(*.R)로 따로 저장할 수 있습니다. 스크립트 창의..

(R) R 및 RStudio 설치하기

[ 설치 PC 기본정보 ] ● OS : windows 10 ● GPU : Nvidia GeForce GTX 1060 3GB ● CPU : Intel(R) Core(TM) i5-6500 (3.2GHz) ● RAM : 8GB Python과 함께 데이터 분석용 언어이자 프로그램으로 널리 사용되고 있는 R 설치방법에 대해서 알아보겠습니다. 설치할 버전은 3.6.3 버전입니다. 구글(google)에서 "r download"라고 검색하셔서 첫 번째 결과로 이동합니다. 현재 기준으로는 4.0.3 버전까지 나와있네요. 최신 버전의 경우 과거 소스 호환이나 안정성 면에서 위험성이 있기 때문에 3.6.3 버전을 다운로드 받겠습니다. Previous releases 링크를 눌러 이동합니다. 그러면 아래와 같이 전체 버전 리..

(R) Tensorflow GPU 설정 방법

[ 설치 PC 기본정보 ] ● OS : windows 10 ● R : 3.6.3 64bit ● RStudio : 1.3.1093 ● Tensorflow : 2.2.0 ● GPU : Nvidia GeForce GTX 1060 3GB ● CPU : Intel(R) Core(TM) i5-6500 (3.2GHz) ● RAM : 8GB R에서 Keras, Tensorflow를 사용하는 경우 GPU를 사용할 수 있는 설정 방법에 대해서 설명드리겠습니다. 순서는 아래와 같습니다. ① 본인의 그래픽 카드가 지원되는 그래픽 카드인지 확인 ② R에서 Keras, Tensorflow 설치 및 본인이 설치한 Tensorflow 버전에 맞는 CUDA 및 cuDNN 버전 확인 ③ Nvidia CUDA Toolkit 설치 ④ Nv..