데이터는 범주형 데이터와 수치형 데이터로 이루어져 있다.
범주형 | 명목형 | 대부분 글씨로 되어있음, 계산 불가능 |
순서형 | 서열 비교 가능 | |
수치형 | 이산형 | 셀 수 있음, 유한함 |
연속형 | 등간형, 비율형 |
독립변수 X | |||
수치형 | 범주형 | ||
종속변수 Y | 수치형 | 상관분석, 회귀분석 | t-test, ANOVA |
범주형 | 로지스틱 회귀분석 | 카이제곱검정 |
보통 데이터의 관계를 알아보기 위해 분석이 사용되며 로지스틱 회귀분석의 경우 분류에 많이 사용된다.
데이터를 확인할 때에는 차트를 그려보면 한 눈에 파악하기 쉽다.
일변량 차트
- 범주형 - 파이 그래프, 바 차트
- 수치형 - 히스토그램, 박스플랏 (분포, 모양, outlier 등을 알 수 있음)
다변량 차트
- 번주형 & 수치형 - 박스플랏
- 수치형 & 수치형 - 산점도 플랏
- data의 관계를 알 수 있다.
- group의 존재 유무를 알 수 있음
- 이상치 유무 알 수 있음
- 데이터 간 인과관계는 알 수 없음
- 범주형 & 범주형 - Mosaic Plot (색이나 명암으로 분류)
- 범주형 & 범주형 & 수치형 - Stacked bar chart
데이터를 나타내는 대표 값의 종류
- 평균 (산술평균)
- 유일한 값 가짐
- 극단적인 값에 민감
- 최빈값 (mode), 중앙값 (median), 평균 (mean)
- 분산
- 표본일 경우 n-1 로 나누어 주어야 함 (불편 추정량, 모수와 비슷한 값을 출력할 수 있도록)
- 제곱을 하므로 원래 자료의 단위와 달라짐
- 자유도 보통 n-1 (무조건은 아님)
- 표준편차 - 단위 다시 환원
- 변동계수
- 표준편차 / 평균
- data가 얼마나 퍼져있는지 의미
'배우는 여자 > 코딩' 카테고리의 다른 글
오픈소스 소프트웨어 라이센스 (0) | 2024.11.25 |
---|---|
[Algorithm] 병합 정렬, Merge sorting - 안정적이고 빠르다 (0) | 2021.08.11 |
c언어 입출력 기본 (0) | 2021.03.04 |