노센스와 함께하는 데이터 분석

데이터과학자, '현장에서 바로 써먹는' 시리즈 저자

(엑셀) 데이터 분석 실습

(엑셀) 상관분석

노센스 2020. 10. 14. 00:45

목차

     

    지난 시간에 엑셀에서 데이터 분석 기능을 추가하는 방법을 확인했었는데요.

     

     

    datawithnosense.tistory.com/8

     

    (엑셀) 데이터분석 도구 추가 방법

    포스팅할 엑셀 컨텐츠에 대해 고민하다가 당분간은 엑셀의 데이터 분석 기능에 대해서 알려드리려고 합니다. 실제 엑셀의 데이터 분석 기능을 이용하면 미니탭과 같은 전문 통계 프로그램에서

    datawithnosense.tistory.com

     

    이번 시간부터는 추가시킨 데이터 분석 기능을 활용하는 방법에 대해서 설명드리겠습니다.

    1. 상관분석 정의

     

    첫번째 분석 기능은 바로 상관분석이라는 방법인데요. 상관관계분석이라고도 부릅니다. 정의는 아래와 같습니다.

    상관 분석(correlation analysis)은 확률론통계학에서 두 변수간에 어떤 선형적 관계를 갖고 있는 지를 분석하는 방법이다. 두변수는 서로 독립적인 관계로부터 서로 상관된 관계일 수 있으며 이때 두 변수간의 관계의 강도를 상관관계(Correlation, Correlation coefficient)라 한다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수 ρ를 사용한다. - 위키 백과 -

    2. 사례와 사용법

     

    바로 사례와 사용법을 함께 설명드리겠습니다.

    데이터셋은 제일 아래 첨부해놨으니 받아서 해보시기 바랍니다. (임의로 제작한 데이터셋임)

    아래와 같이 철의 5대 원소인 탄소(C), 규소(Si), 망간(Mn), 인(P), 황(S)과 인장강도 데이터가 있습니다. 구하고자 하는 것은 인장강도라는 철강재료의 특성과 어떤 성분들이 상관관계를 가지고 있는지 확인해보는 것입니다.

     

    지난 포스트에서 설명드렸던 데이터 분석기능을 먼저 추가했다는 가정 하에 데이터 메뉴에서 데이터분석을 선택합니다. 그리고 상관 분석을 선택한 후 확인을 눌러주세요.

     

    그러면 아래과 같은 창이 다시 생성됩니다. 입력 범위는 데이터가 입력된 모든 범위를 마우스 또는 『Ctrl + Shift + 방향』 키를 이용해 선택하시고, 첫재 행은 C, Si 등 열 이름이 들어있는 데이터셋이기 때문에 『첫째 행 이름표 사용』 부분에 체크를 해주시기 바랍니다. 그리고 마지막으로 출력 옵션에서 어디에 상관 분석 결과를 보여줄지 선택하면 되는데요. 기본값이 새로운 워크시트를 선택한 상태에서 확인을 눌러주세요.

     

    그러면 새로운 시트가 자동적으로 생성되면서 상관 분석 결과가 나옵니다. 생각보다 간단하죠? 무엇보다 중요한 건 결과 해석인데요. 엑셀에서는 아래와 같이 행과 열에 데이터셋의 열이름을 대칭되게 나타내고, 그 사이에 상관계수를 나타냅니다. 상관계수는 보통 피어슨 상관계수를 줄여서 말하는데 기호는 r로 나타냅니다. 상관계수는 -1부터 1 사이의 값을 가지며 두 변수의 연관된 정도를 나타냅니다. 하지만 인과관계를 설명하는 것은 아니기 때문에 주의가 요구됩니다. (r = X와 Y가 함께 변하는 정도/ X와 Y가 각각 변하는 정도) 일반적으로 상관계수 r에 대한 판단기준은 아래에 별도 표기하였습니다.

     

    3. 상관계수 판단기준

    [r 판단기준]

    r이 -1.0과 -0.7 사이이면, 강한 음적 선형관계,

    r이 -0.7과 -0.3 사이이면, 뚜렷한 음적 선형관계,

    r이 -0.3과 -0.1 사이이면, 약한 음적 선형관계,

    r이 -0.1과 +0.1 사이이면, 거의 무시될 수 있는 선형관계,

    r이 +0.1과 +0.3 사이이면, 약한 양적 선형관계,

    r이 +0.3과 +0.7 사이이면, 뚜렷한 양적 선형관계,

    r이 +0.7과 +1.0 사이이면, 강한 양적 선형관계

    위의 판단기준을 토대로 인장강도에 상관관계가 가장 높은 성분을 고르면 C가 가장 높고, 그 다음은 Mn임을 알 수 있습니다. 나머지 S, Si, P의 경우는 상관계수가 절대값 0.3 보다 작기 때문에 선형관계가 약하거나 거의 무시될 수 있는 관계라는 것을 알 수 있습니다. 어때요 간단하지요? 업무를 하시거나 궁금한 문제를 해결하는데 활용해 보시기 바랍니다.

     

    감사합니다.

    ※ 문의사항은 댓글 남겨주시고, 도움이 되셨다면 공감 버튼을 눌러주세요!

     

    ※ 실제로 철강재료에서 C와 Mn은 인장강도와 양의 상관관계를 가집니다.

     

    180617_노센스의_엑셀강의_데이터분석_상관분석.xlsx
    0.01MB

    '(엑셀) 데이터 분석 실습' 카테고리의 다른 글

    (엑셀) 데이터분석 도구 추가 방법  (0) 2020.10.14
    (엑셀) 회귀분석  (0) 2020.10.14