노센스와 함께하는 데이터 분석

데이터과학자, '현장에서 바로 써먹는' 시리즈 저자

분류 전체보기 67

제3회 빅데이터분석기사 최종합격 후기 및 실기시험 팁

이전에 데이터 전문가포럼 카페(http://naver.me/56YqXoRv)에 올린 제 합격수기를 공유해봅니다. 우선 저는 현업에서 10년이 넘는 기간 동안 데이터분석 업무를 수행하고 있으며, 작년(2021년) 8월에 R 서적을 출간하기도 했습니다. 파이썬 보다는 R이 도움말을 사용할 수 있고, 함수명이 짧기 때문에 시험에 유리해서 R로 응시했습니다. R에서 ?나 help()를 이용해 도움말을 찾아볼 수 있는 것은 구글링을 하는 것과 유사한 수준의 장점이라고 생각하며 R의 경우 각종 패키지나 함수의 사용법에 예제까지 포함되어있기 때문에 함수 사용법이 제대로 기억나지 않더라도 도움말의 예제를 보면 충분히 문제를 해결할 수 있습니다. ​ ​[단답형] ​ 개인적으로 단답형의 경우가 작업형 보다 더 어려울 것으..

(R) 빅데이터분석기사 실기 작업형2 체험하기 코드

빅데이터분석기사 3회차 실기가 몇 일 남지 않은 상황에서 공부한 내용을 공유해 봅니다. 실시시험의 작업형2가 40점으로 가장 큰 배점을 차지하며, R이나 파이썬을 처음 접하는 분들께는 꽤나 어렵지 않을까 생각됩니다. 다행히도 한국데이터산업진흥원에서 실기시험을 체험해 볼 수 있는 링크를 제공해줘서 작업형2를 풀어보았습니다. https://dataq.goorm.io/exam/116674/%EC%B2%B4%ED%97%98%ED%95%98%EA%B8%B0/quiz/3 구름EDU - 모두를 위한 맞춤형 IT교육 구름EDU는 모두를 위한 맞춤형 IT교육 플랫폼입니다. 개인/학교/기업 및 기관 별 최적화된 IT교육 솔루션을 경험해보세요. 기초부터 실무 프로그래밍 교육, 전국 초중고/대학교 온라인 강의, 기업/ edu..

(R) 데이터 다루기 - subset

이제 불러온 데이터를 다루는 방법에 대해서 설명드리겠습니다. 일반적으로 데이터를 다룰 때 가장 널리 사용되는 패키지는 dplyr이 있지만 기본 함수인 subset만으로도 충분히 데이터를 다루는 일이 가능하기 때문에 subset() 함수에 대해서 우선 설명드리겠습니다. 우선 데이터 셋으로 사용할 iris라는 데이터 셋에 대해서 먼저 설명드리겠습니다. iris는 붓꽃을 의미하며 붓꽃의 종류(Species)별 특징을 기록해놓은 데이터 셋이 되겠습니다. 아래와 같이 총 3종류에 꽃받침(Sepal), 꽃잎(Petal) 길이(Length)와 넓이(Width)를 종류별 50개씩 기록했습니다. iris 데이터 셋은 R에서 기본적으로 내장하고 있으므로 그냥 iris라고 입력하고, 실행(Ctrl + Enter)하면 바로 ..

(R) 데이터 불러오기 및 내보내기

R에서 데이터를 불러오기 위해서는 불러오는 파일, DB 등의 형태에 따라 명령어가 다양합니다. 파일형태의 경우 열이 콤마로 구분되는 csv(comma-seperated values) 형태가 주를 이루기 때문에 csv파일을 불러오는 방법을 설명드리겠습니다. 가정 먼저 설정해줘야하는 부분은 작업 디렉토리(Working Directory) 설정 입니다. 작업 디렉토리를 설정하는 방법은 크게 2가지로 프로젝트를 만들던가, 우측 하단의 Files 탭을 이용해 폴더를 지정해서 작업 디렉토리로 설정할 수 있습니다. 자세한 부분은 아래 포스트를 참고해주세요. https://datawithnosense.tistory.com/35 (R) RStudio 기본 사용법 [ 설치 PC 기본정보 ] ● OS : windows 10..

(R) 패키지 설치하기 및 불러오기

R에서 패키지는 전 세계 사용자들이 만들어놓은 함수로 이해하시면 편합니다. 엑셀이 강력한 이유가 SUMIF(), VLOOKUP(), INDEX() 등 함수를 이용해서 다양한 기능을 할 수 있는 것처럼 R이 강력한 이유도 바로 이 패키지 덕분입니다. R에는 엑셀의 함수 같은 게 18,000개 이상 있습니다. 이 패키지들을 이용하면 수십, 수백줄의 코드를 하나씩 구현하지 않아도 단 몇줄의 코드로 원하는 알고리즘을 구현할 수 있습니다. RStudio에서 패키지를 설치하기 위해서는 설치되는 경로가 이원화되지 않게 하기 위해 RStudio 실행 시 "관리자 권한으로 실행"해야 합니다. 그렇지 않으면 권한이 없어 R이 설치된 폴더의 Library 폴더에 패키지가 설치되지 않습니다. 패키지 설치 명령어는 아래와 같습..

(R) RStudio 기본 사용법

[ 설치 PC 기본정보 ] ● OS : windows 10 ● GPU : Nvidia GeForce GTX 1060 3GB ● CPU : Intel(R) Core(TM) i5-6500 (3.2GHz) ● RAM : 16GB ● R 3.6.3 / RStudio 1.4.1106 RStudio는 R을 사용자가 좀 더 쉽고, 편리하게 사용할 수 있도록 도와주는 프로그램입니다. RStudio를 처음으로 실행하면 아래와 같은 화면이 나옵니다. 여기서 빨간색 상자로 표시한 아이콘을 클릭하면 스크립트 창이 펼쳐집니다. 이렇게 스크립트 창이 열리며 아래와 같이 크게 4개의 화면 구성이 펼쳐집니다. 좌측 상단의 스크립트 창은 코드를 입력하는 곳이고, 이 코드를 파일 형태(*.R)로 따로 저장할 수 있습니다. 스크립트 창의..

국가공인 데이터 분석 자격증 소개 및 합격률

데이터 분석 분야에 많은 관심이 쏟아지면서 관련 자격증에 대한 수요가 매우 높아졌습니다. 이에따라 한국데이터산업진흥원(Kdata)에서 국가공인 데이터분석 준전문가(ADsP, Advanced Data analytics Semi-Professional)와 데이터분석 전문가(ADP, Advanced Data analytics Professional) 자격증을 만들었고, 작년에 처음으로 국가기술자격증으로 빅데이터 분석기사 자격증이 생겼습니다. 데이터분석 준전문가(ADsP)의 경우 별도의 응시자격이 없기 때문에 많은 대학생들이 컴활이나 정보처리기사와 같이 스펙을 추가하기 위해 취득하고 있습니다. 난이도도 일반 기사 시험 대비 낮고, 필기시험 한 번으로 끝나기 때문에 비전공자라도 큰 어려움없이 단 기간에 취득할 수..

(현바데분withR) 책 교정 및 보충사항

출판 후 시간이 좀 흐른 뒤 다시 책을 보니 편집 때 찾지 못했던 오타나 수정사항 또는 설명이 부족해 보충해야할 사항들이 보여 여기에 수정하면서 하나씩 추가하도록 하겠습니다. 독자분들께 불편을 드려 죄송하고, 구매해주셔서 정말 감사드립니다. 페이지 유형 내용 53 오타 핵심요약 4번에서 전수전사가 아니라 전수조사 101 수정 끝에서 2번째 줄에 "그리고 대시(-)와 언더바(_)를 조합해서 사용할 수도 있습니다." "그리고 언더바(_)를 조합해서 사용할 수도 있습니다."로 변경되어야 합니다. 대시(-)는 변수명으로 사용할 수 없습니다. 185 오타 잠깐만요 상자 안의 후진소거법(Backward Selection) → 후진소거법(Backward Elimination) 196 오타 연습문제 4번의 test의 ..

(현바데분withR) 패키지 리스트

책에서 실습으로 사용되는 패키지 리스트 입니다. 한 번에 다 설치해놓으면 실습에서 패키지를 하나씩 다 설치할 필요가 없습니다. 감사합니다. [실습 패키지 리스트] DMwR2, openxlsx, RColorBrewer, corrplot, corrgram, corrr, caret, Epi, e1071, rpart, rpart.plot, adabag, randomForest, xgboost, cluster, nnet, h2o, keras, tensorflow, KoNLP, hash, rJava, tau, Sejong, RSQLite, devtools, multilinguer, remotes, wordcloud, readr, SentimentAnalysis, stringr, tm, RPostgres, sqldf..