노센스와 함께하는 데이터 분석

데이터과학자, '현장에서 바로 써먹는' 시리즈 저자

데이터 분석에 대한 이해

데이터란?

노센스 2020. 10. 15. 20:33

1. 데이터의 정의

1) 데이터란?

추론과 추정의 근거를 이루는 사실

‘객관적 사실(fact, raw material)’이라는 존재적 특성을 갖는 동시에 ‘추론, 예측, 전망, 추정을 위한 근거(basis)’로 기능하는 당위적 특성 또한 갖고 있음

2) 데이터의 유형

구분

형태

예시

정성적(qualitative) 데이터

언어, 문자 등

회사 매출이 증가함

정량적(quantitative) 데이터

수치, 도형, 기호 등

30(나이), 48.4(kg)

구분

특징

예시

정형 데이터

(Structured Data)

형태(고정된 필드) 존재, 연산 가능, RDBMS에 저장

RDBMS, Excel, CSV 등

반정형 데이터

(Semi-Structured Data)

형태(스키마, 메타데이터) 존재, 연산 불가, 파일에 저장, 보통 API 형태로 제공되기 때문에 데이터 처리기술(*파싱) 요구됨

XML, HTML, JSON, 로그(Log) 등

비정형 데이터

(Unstructured Data)

형태없음, 연산 불가, NoSQL에 저장, 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱해야함

데이터 처리 어려움

SNS, 영상, 이미지, 음성,

텍스트 등

* 파싱(parsing) : HTML, JSON, XML 등에서 특정 패턴이나 순서로 데이터를 추출해 가공하는 것

※ JSON?

JSON(JavaScript Object Notation, 자바스크립트 객체 표기법)

: “속성-값 쌍” 또는 "키-값 쌍"으로 이루어진 데이터 오브젝트를 전달하기 위해 인간이 읽을 수 있는 텍스트를

사용하는 개방형 표준 포맷

https://ko.wikipedia.org/wiki/JSON

 

JSON - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. JSON(제이슨[1], JavaScript Object Notation)은 속성-값 쌍( attribute–value pairs and array data types (or any other serializable value)) 또는 "키-값 쌍"으로 이루어진 데이터 오브젝트를

ko.wikipedia.org

 

https://jsonformatter.org/json-parser

 

Best JSON Parser Online

Secure JSON Parser is online JSON Parser tool to Parse and Visualise JSON data in Tree View.

jsonformatter.org

※ API(Application Programming Interface)?

: 응용 프로그램에서 사용할 수 있도록, 운영 체제나 프로그래밍 언어가 제공하는 기능을 제어할 수 있게 만든 인터페이스

https://data.kma.go.kr/cmmn/main.do

 

기상자료개방포털

 

data.kma.go.kr

3) 암묵지와 형식지의 상호작용

현장 경험을 통해 개인에게 축적된 내면화된 지식을 조직의 지식으로 공통화하기 위해서는 개인의 암묵지를

언어나 기호, 숫자 등의 형태로 표출화하고, 이를 다시 다른 개인이 본인의 지식에 연결하여 그 바탕 위에서

새로운 경험을 부가하여 다시 내면화하는 과정이 반복되는 상호 순환 작용을 통해 조직의 지식이 증대됨

구분

의미

예시

특징

상호작용

암묵지

학습과 경험을 통해 개인에게

체화되어 있지만 겉으로 드러나지 않는 지식

김장김치

담그기,

자전거 타기

사회적으로 중요하지만 다른 사람에게 공유되기 어려움

공통화,

내면화

형식지

문서나 메뉴얼처럼 형상화된 지식

교과서,

비디오, DB

전달과 공유가 용이함

표준화,

연결화

2. 데이터와 정보의 관계(정보의 피라미드)

3. 데이터베이스의 정의와 특징

1) 용어 배경

· 1950년대 미국 군대의 데이터 기지라는 뜻으로 데이터베이스 탄생

· 1963년 미국 SDC가 개최한 심포지엄에서 공식 용어로 사용

· 1970년대 초반 유럽에서 데이터베이스라는 단일어로 일반화 됨

· 1975년 국내에서 미국의 CAC가 KORSTIC(한국과학기술정보센터)을 통해 처음으로 서비스 됨

2) 데이터베이스의 정의

출처

내용

EU

체계적이거나 조직적으로 정리되고 전자식 또는 기타 수단으로 개별적으로 접근할 수 있는 독립된 저작물, 데이터 또는 기타 소재의 수집물

국내 ‘저작권법’

소재를 체계적으로 배열 또는 구성한 편집물로서 개별적으로 그 소재에

접근하거나 그 소재를 검색할 수 있도록 한 것

국내 ‘컴퓨터

용어사전’

동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서

데이터를 받아들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성된

데이터의 집합

국내 ‘Wikipedia’

관련된 레코드의 집합, 소프트웨어로는 데이터베이스관리시스템(DBMS)을 의미

국내 ‘데이터분석

전문가 가이드’

문자, 기호, 음성, 화상, 영상 등 상호 관련된 다수의 콘텐츠를 정보 처리 및

정보통신 기기에 의하여 체계적으로 수집·축적하여 다양한 용도와 방법으로

이용할 수 있도록 정리한 정보의 집합체

3) 데이터베이스의 특징

특징

설명

통합된 데이터

(Integrated Data)

동일한 내용의 데이터가 중복되어 있지 않다는 것을 의미,

데이터 중복은 관리상의 복잡한 부작용을 초래

저장된 데이터

(Stored Data)

작기 디스크나 자기 테이프 등과 같이 컴퓨터가 접근할 수 있는 저장 매체에

저장되는 것을 의미,

데이터베이스는 기본적으로 컴퓨터 기술을 바탕으로 한 것

공용 데이터

(Shared Data)

여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용한다는 것을 의미,

대용량화되고 구조가 복잡한 것이 보통

변화되는 데이터

(Changeable Data)

데이터베이스에 저장된 내용은 곧 데이터베이스의 현 상태를 나타냄,

다만 이 상태는 새로운 데이터의 삽입, 기존 데이터의 삭제, 갱신으로 항상

변화하면서도 항상 현재의 정확한 데이터를 유지해야 함

4) 데이터베이스의 활용