노센스와 함께하는 데이터 분석

데이터과학자, '현장에서 바로 써먹는' 시리즈 저자

(책) 현바데분 with R 9

(현바데분withR) PostgreSQL DB 연결용 iris 테이블 생성 방법

독자분께서 도움을 요청하셔서 이렇게 포스팅을 합니다. "Chapter 9 참고할 만한 내용들"에서 "1 데이터베이스 연결 및 SQL 사용법" 실습을 하기 위해서는 PostgreSQL을 설치하고, 스키마(Schema)를 생성한 뒤에 테이블(Table)을 만들고, iris 데이터까지 밀어넣어야 합니다. PostgreSQL 설치는 별도 포스팅을 할 예정이며 하기 사이트에서 본인의 OS 환경에 맞춰 최신버전을 다운로드 받아 install 하면 됩니다. 다만 주의할 점은 설치 시 비밀번호를 입력해야하는데 잊지않도록 해야합니다. https://www.enterprisedb.com/downloads/postgres-postgresql-downloads Download PostgreSQL PostgreSQL Datab..

(현바데분withR) R 버전 업에 따른 이슈 공유

안녕하세요. 저자 김임용입니다. 책을 출판하고, 1년이 지나지도 않았는데 R의 생태계에도 다양한 변화가 생겼습니다. 책을 집필할 경우만 하더라도 3.6.3 버전으로 별다른 이슈가 없었으나 2022년 4월을 기준으로 4.2버전까지 나오면서 데이터 타입 인식 및 각종 패키지 호환 문제 등이 발생하고 있습니다. 데이터 타입 문제 특히, 가장 빈번히 발생하는 오류는 "Chapter 6. 분류 및 군집분석"에서 다양한 분류 모델을 이용해 학습시킬 때 발생합니다. 대표적인 오류는 아래와 같습니다. [로지스틱 회귀분석 실행 시 오류] > g_glm c_rf confusionMatrix(c_test$pred5, c_test$breeds) Error in confusionMatrix.default(c_test$pred5..

(현바데분withR) 책 교정 및 보충사항

출판 후 시간이 좀 흐른 뒤 다시 책을 보니 편집 때 찾지 못했던 오타나 수정사항 또는 설명이 부족해 보충해야할 사항들이 보여 여기에 수정하면서 하나씩 추가하도록 하겠습니다. 독자분들께 불편을 드려 죄송하고, 구매해주셔서 정말 감사드립니다. 페이지 유형 내용 53 오타 핵심요약 4번에서 전수전사가 아니라 전수조사 101 수정 끝에서 2번째 줄에 "그리고 대시(-)와 언더바(_)를 조합해서 사용할 수도 있습니다." "그리고 언더바(_)를 조합해서 사용할 수도 있습니다."로 변경되어야 합니다. 대시(-)는 변수명으로 사용할 수 없습니다. 185 오타 잠깐만요 상자 안의 후진소거법(Backward Selection) → 후진소거법(Backward Elimination) 196 오타 연습문제 4번의 test의 ..

(현바데분withR) 패키지 리스트

책에서 실습으로 사용되는 패키지 리스트 입니다. 한 번에 다 설치해놓으면 실습에서 패키지를 하나씩 다 설치할 필요가 없습니다. 감사합니다. [실습 패키지 리스트] DMwR2, openxlsx, RColorBrewer, corrplot, corrgram, corrr, caret, Epi, e1071, rpart, rpart.plot, adabag, randomForest, xgboost, cluster, nnet, h2o, keras, tensorflow, KoNLP, hash, rJava, tau, Sejong, RSQLite, devtools, multilinguer, remotes, wordcloud, readr, SentimentAnalysis, stringr, tm, RPostgres, sqldf..

현장에서 바로써먹는 데이터 분석 with R

안녕하세요. 제가 작년(2020년) 10월부터 준비한 책이 드디어 세상에 나왔습니다. 데이터 분석업무를 10년 넘게 하면서 쌓은 노하우를 한 권의 책에 담았습니다. 책 제목은 "현장에서 바로써먹는 데이터 분석 with R" 입니다. 처음 쓰는 책이라 부족한 점이 많습니다. 하지만 시중의 어떤 책보다 쉽게 데이터 분석이라는 분야에 접근할 수 있게 만든 책이라는 것은 확실히 보장할 수 있습니다. 꼭 데이터 분석이라는 기술적인 측면 외에도 해당 분야의 이론과 배경지식을 쌓는데도 도움이 될 수 있게 만들었으며 실습을 위한 도구로 R을 선택했을뿐 꼭 R을 위한 책은 아닙니다. 본질은 데이터 분석이라는 기술이며 그 기술을 구현하기 위해 R이라는 도구를 썼을 뿐입니다. 기회가 된다면 Python(파이썬) 코드로 책을..