통계 개념 정리에 앞서 통계학이라는 학문에 대해 알아본다.

통계는 왜 공부하는가

미래를 알기 위해서, 집단의 특징을 알기 위해서

우리는 군중의 특징에 대해 알 필요가 있다. 예를 들어 물건을 판다고 생각해보자. 이 물건이 많이 팔릴지 아닐지는 해당 소비자의 특징을 분석할 필요가 있다.

주요 통계학 개념

  1. 모수(population parameter)
    • 모집단 (population)의 특성을 나타내는 척도, 특징
  2. 통계량(statistic)
    • 표본(sample)의 특성을 나타내는 척도, 특징

결과적으로 우리는 표본의 통계량을 기반으로 모수를 추정한다.

데이터의 형태

  1. interval data (numerical data)
    • 수치형 데이터. 요금, 발생률 같이 실수 범위의 숫자가 나올 수 있는 것을 말한다.
    • 이런 실수형 데이터는 내가 구간을 나누어 범주형 데이터로 처리를 할 수 있다.
  2. nominal data (categorical data)
    • 범주형 데이터이다. 범주형 데이터에는 서열이 존재하는 데이터, 그렇지 않은 데이터로 나눌 수 있다.
    • 예를 들면, 순위와 같은 서열 데이터와 성별과 같은 데이터가 존재한다.
    • 보통 계산을 위해 숫자로 대체한다.
    • 범주형 데이터는 해당 범주에 대한 빈도수를 세는 도수분포표가 많이 사용된다.
    • 또는 파이차트도 많이 사용된다.

히스토그램

수치형 데이터에서 계급에 대한 빈도수를 나타낼 때 사용한다.

왜도(skerness)

히스토그램의 비대칭성의 정도를 나타내는 척도

꼬리가 긴 쪽에 치우쳐서 파악하면 된다. 꼬리가 오른쪽이라면 양의 비대칭, 반대는 음의 비대칭이다.