노센스와 함께하는 데이터 분석

데이터과학자, '현장에서 바로 써먹는' 시리즈 저자

(R) 데이터 분석 실습

(R) 데이터 불러오기 및 내보내기

노센스 2021. 11. 30. 21:39

R에서 데이터를 불러오기 위해서는 불러오는 파일, DB 등의 형태에 따라 명령어가 다양합니다.

 

파일형태의 경우 열이 콤마로 구분되는 csv(comma-seperated values) 형태가 주를 이루기 때문에 csv파일을 불러오는 방법을 설명드리겠습니다.

 

가정 먼저 설정해줘야하는 부분은 작업 디렉토리(Working Directory) 설정 입니다.

작업 디렉토리를 설정하는 방법은 크게 2가지로 프로젝트를 만들던가, 우측 하단의 Files 탭을 이용해 폴더를 지정해서 작업 디렉토리로 설정할 수 있습니다.

자세한 부분은 아래 포스트를 참고해주세요.

https://datawithnosense.tistory.com/35

 

(R) RStudio 기본 사용법

[ 설치 PC 기본정보 ] ● OS : windows 10 ● GPU : Nvidia GeForce GTX 1060 3GB ● CPU : Intel(R) Core(TM) i5-6500 (3.2GHz) ● RAM : 16GB ● R 3.6.3 / RStudio 1.4.1106 RStudio는 R을 사용자가 좀 더 쉽고..

datawithnosense.tistory.com

작업 디렉토리에 불러올 csv 파일을 옮겨 놓습니다.

 

iris.csv
0.00MB

 

그리고 csv파일을 불러오는 명령어는 아래와 같습니다.

 

read.csv("파일명.csv", header =TRUE)

read.csv("iris.csv", header = TRUE)

여기서 header =TRUE의 의미는 csv 파일을 첫 행(header, row)이 존재한다는 의미입니다.

일반적으로 데이터 파일의 첫 행은 열 이름이 들어있기 때문에 써줍니다.

 

위에서는 이렇게 데이터 파일을 불러온 후 a라는 변수에 집어놓고,

head() 함수를 이용해 처음부터 6번째 행까지 불러와서 확인해 보았습니다.

 

그리고, 이렇게 불러온 파일을 전 처리(preprocessing)나 예측값을 만들고, 다시 파일로 내보내려면 아래와 같이 명령어를 입력하면 작업 디렉토리에 데이터 셋을 파일로 내보낼 수 있습니다.

 

write.csv(데이터셋이름, "파일명.csv", row.names = FALSE)

write.csv(a, "iris2.csv", row.names = FALSE)

위에서는 그대로 불러온 iris 데이터 셋을 a라는 변수에 넣었기 때문에 a라는 변수를 iris2.csv 파일로 내보내라고 입력하였습니다. row.names = FALSE의 의미는 행의 인덱스(1, 2, 3, ...) 번호는 넣지 말라는 의미입니다.

 

iris2.csv 파일을 확인해 본 결과 잘 내보내진 것을 확인할 수 있습니다.