본문 바로가기

배우는 여자/코딩

데이터의 형태 정리

데이터는 범주형 데이터와 수치형 데이터로 이루어져 있다.

범주형 명목형 대부분 글씨로 되어있음, 계산 불가능
순서형 서열 비교 가능
수치형 이산형 셀 수 있음, 유한함
연속형 등간형, 비율형
  독립변수 X
수치형 범주형
종속변수 Y 수치형 상관분석, 회귀분석 t-test, ANOVA
범주형 로지스틱 회귀분석 카이제곱검정

보통 데이터의 관계를 알아보기 위해 분석이 사용되며 로지스틱 회귀분석의 경우 분류에 많이 사용된다.

데이터를 확인할 때에는 차트를 그려보면 한 눈에 파악하기 쉽다.

일변량 차트

  • 범주형 - 파이 그래프, 바 차트
  • 수치형 - 히스토그램, 박스플랏 (분포, 모양, outlier 등을 알 수 있음)

다변량 차트

  • 번주형 & 수치형 - 박스플랏
  • 수치형 & 수치형 - 산점도 플랏
    • data의 관계를 알 수 있다.
    • group의 존재 유무를 알 수 있음
    • 이상치 유무 알 수 있음
    • 데이터 간 인과관계는 알 수 없음

상관계수에 따른 산점도 (https://otexts.com/fppkr/graphics-scatterplots.html)

  • 범주형 & 범주형 - Mosaic Plot (색이나 명암으로 분류)
  • 범주형 & 범주형 & 수치형 - Stacked bar chart

데이터를 나타내는 대표 값의 종류

  • 평균 (산술평균)
    • 유일한 값 가짐
    • 극단적인 값에 민감
    • 최빈값 (mode), 중앙값 (median), 평균 (mean)
  • 분산
    • 표본일 경우 n-1 로 나누어 주어야 함 (불편 추정량, 모수와 비슷한 값을 출력할 수 있도록)
    • 제곱을 하므로 원래 자료의 단위와 달라짐
    • 자유도 보통 n-1 (무조건은 아님)
  • 표준편차 - 단위 다시 환원
  • 변동계수
    • 표준편차 / 평균
    • data가 얼마나 퍼져있는지 의미