노센스와 함께하는 데이터 분석

데이터과학자, '현장에서 바로 써먹는' 시리즈 저자

데이터다루기 2

(R) 데이터 다루기 - dplyr 패키지

R의 기본 함수인 subset()은 데이터 필터링에는 적합하지만 데이터를 집계(aggregation)하거나 합치기(join) 위해서는 다른 함수를 이용해야합니다. 다른 내장 기본함수를 공부하는 것보다 dplyr 패키지 하나만 잘 이용하면 데이터를 가공하는 대부분의 일을 할 수 있기에 해당 패키지 하나만 제대로 익히는 것을 추천드립니다. 앞선 예제와 동일하게 iris 데이터 셋을 이용해 데이터를 필터링해보고, 집계 및 합치기 실습을 해보겠습니다. dplyr 패키지를 사용하기에 앞서 파이프라인(pipeline) 연산자라는 것을 알아야합니다. RStudio에서 파이프라인 연산자(%>%)는 Ctrl + Shift + M키를 동시에 누르면 입력할 수 있습니다. 파이프라인 연산자는 쉽게 말해 파이프가 연결된 것처럼..

(R) 데이터 다루기 - subset

이제 불러온 데이터를 다루는 방법에 대해서 설명드리겠습니다. 일반적으로 데이터를 다룰 때 가장 널리 사용되는 패키지는 dplyr이 있지만 기본 함수인 subset만으로도 충분히 데이터를 다루는 일이 가능하기 때문에 subset() 함수에 대해서 우선 설명드리겠습니다. 우선 데이터 셋으로 사용할 iris라는 데이터 셋에 대해서 먼저 설명드리겠습니다. iris는 붓꽃을 의미하며 붓꽃의 종류(Species)별 특징을 기록해놓은 데이터 셋이 되겠습니다. 아래와 같이 총 3종류에 꽃받침(Sepal), 꽃잎(Petal) 길이(Length)와 넓이(Width)를 종류별 50개씩 기록했습니다. iris 데이터 셋은 R에서 기본적으로 내장하고 있으므로 그냥 iris라고 입력하고, 실행(Ctrl + Enter)하면 바로 ..