28건의 항목

  • 통계 개념 정리에 앞서 통계학이라는 학문에 대해 알아본다. 통계는 왜 공부하는가 미래를 알기 위해서, 집단의 특징을 알기 위해서 우리는 군중의 특징에 대해 알 필요가 있다. 예를 들어 물건을 판다고 생각해보자.

  • 데이터의 중심을 나타내는 척도에 대해서 배워본다. 평균 (mean) 평균은 대표적으로 집단의 중심위치를 나타내는 척도로 사용된다. 이 평균에는 보통 3종류가 사용된다.

  • 데이터를 설명하는 또 다른 척도인 변동성에 대해 알아본다. 변동성 데이터의 분포를 나타냄에 있어 퍼진 정도를 측정한다. 범위 range = 최대 관측치 - 최소 관측치 해당 데이터의 값이 어디서 부터 어디까지인지 나타낸다.

  • 데이터를 설명하는 상대위치와 이를 나타내는 box plot에 대해 알아본다. 상대위치 중앙값이 50%에 위치하는 분위수라면, 이에 대응하는 다양한 분위수가 존재한다. 백분위수 분포를 100개로 쪼개어 생각하는 것이다.

  • 데이터의 두 변수간 선형관계를 나타내는 척도에 대해서 알아본다. 선형관계 두 변수의 관계를 알아보는 것은 매우 중요하다. 어떠한 연관성을 통하여 유의미한 정보를 이끌어 낼 수 있기 때문이다. 이러한 선형관계를 알아내는 척도는 3가지 정도가 알려져 있다.

  • 모집단을 추정하기 위한 표본을 추출하는 방법에 대해 알아본다. 표본 추출 단순 랜덤 추출 단순히 랜덤하게 모집단에서 추출하는 방법이다. 집단의 분포가 불균형할 경우 모집단의 특성을 대변하지 못한다는 단점이 있다.

  • 확률에 대해 이해한다. 사건에 확률을 부여하는 방법 동전의 앞면이 나오는 것을 사건 A라 정의했을 때, P(A)를 구하는 방법에 대해 알아보자. 고전적 방법 단순히 1/2라 생각한다. 이 생각의 배경에는 앞면과 뒷면이 나오는 가능성이 동일하다 생각하고 부여한다.

  • 확률분포에 대해 이해한다. 왜 배우는가? 실생활에서 결국 엔지니어가 수행하는 역할은, 다양한 문제에 대해 이를 다룰 수 있는 문제로 바꾸는 것에 있다. 확률과 같이 애매하게 보이는 개념을 어떻게 수치화하여, 다룰 수 있는 문제로 바꾸는지에 대한 내용이 대부분이다.

  • 대표적으로 사용하는 이산 확률 변수에 대한 분포를 알아본다. 의미적으로 이해하는 것을 우선으로 한다. 초기하 분포 n번의 시행에서 k번 성공할 확률, 그런데 독립시행이 아닐 경우의 분포 주머니에 10개의 공이 있다. 이 때 파란공이 3개, 빨간공이 7개 이다.

  • 대표적으로 사용하는 연속 확률 변수에 대한 분포를 알아본다. 의미적으로 이해하는 것을 우선으로 한다. 감마 분포 a번째 사건이 발생할 때까지 걸리는 시간에 대한 분포 음이항 분포와 매우 비슷하다.

  • 표본 분포와 통계량에 대해 이해한다. 추론 (inference) 표본을 가지고 모집단의 특성(모수)를 예측하는 것 통계학의 핵심은 내가 원하는 집단의 특징을 알아내는 것이다.

  • 통계적 추론에 대해 이해한다. 통계적 추론 표본이 갖고 있는 정보를 분석하여 모수에 관한 결론을 유도하고, 모수에 대한 가설의 옳고 그름을 판단하는 것 추정의 방법 모수를 추정하는 방법에 대해서 알아본다. 점 추정 모수를 추정하기 위해 하나의 값을 제안한다.

  • 서로 다른 상태가 K개인 하나의 이산 변수에 관한 확률 분포, K는 유한한 값.

  • 어떠한 모집단이더라도, 모집단의 평균이 \mu 이고, 분산이 \sigma^2 일 때, 임의추출된 표본의 표본 평균 \bar X 는 표본의 크기가 클 경우 정규분포를 따른다.

  • 다변수 확률 분포를 각각의 조건부 확률로 나누어 계산할 수 있는 방법 연쇄법칙 확률 변수 X_1, X_2, \dots, X_n의 결합 확률 p(X_1, X_2, \dots, X_n)는 다음과 같은 조건부 확률의 곱으로 표현될 수 있다.

  • 조건부 확률 P(A \mid B) = \frac{P(A \cap B)}{P(B)} 조건부 확률 P(A \mid B) 는 사건 B 가 발생했을 때 사건 A 가 발생할 확률 여기서 P(A \mid B) 는 “B가 주어졌을 때 A의 확률” P(A \mid B) : 사건 B 가 발생했을 때 사건 A 가 발생할 확률 P(A \cap B) : 사건 A 와 사건 B 가 동시에 발생할 확률 (즉, A 와 B 의 교집합의 확률) P(B) : 사건 B 가 발생할 확률 여기서, P(B) 는 B 가 발생할 확률이 0이 아닌 경우에만 정의.

  • p(x) = \delta(x - \mu) Dirac Delta Function은 0을 제외한 모든 곳에서는 값이 0이나, 적분하면 1이 되는 함수이다. 이를 확률 밀도함수 p(x)로 사용하면, x=\mu일 때 확률이 1이 되는 함수가 된다.

  • 확률변수 X가 따르는 분포 P(X)에서 추출된 x 로 구성된 함수 f(x)에 대한 평균 \mathbb{E} \mathbb{E}_{X \sim P} [f(x)] = \sum_x P(x) f(x) \mathbb{E}_{X \sim P} [f(x)] = \int p(x) f(x) \, dx 만약 \mathbb{E}_{X \sim P} 에서 확률분포 P(X)를 확실히 알 수 있다면 생략한다.

  • 한번의 사건이 발생하는데 까지 걸리는 시간에 대한 분포 Poisson Distribution 에서는 단위 시간에 발생하는 횟수에 대해 궁금했다면, 이번에는 하나의 사건이 발생하는데 까지 걸리는 시간을 확률 변수로 잡는다. 이 때 발생하는 분포가 지수 분포이다.

  • 확률질량의 최고점을 특정점에 두는 분포 Laplace(x| \mu, \gamma) = \frac{1}{2\gamma} \exp \left( -\frac{|x-\mu|}{\gamma} \right) 그려보면 x=\mu에서 최고점을 가지는 분포임을 알 수 있다.

  • 주어진 모델의 파라미터가 주어졌을 때, 관찰된 데이터가 실제로 나타날 확률.

  • 혼합 분포 특정 분포를 만드는데 있어, 여러개의 확률 분포를 사용하는 것. 상황을 하나 생각해보자. 1에서 6까지의 숫자가 나열되어 있는 분포를 생각해보자. 해당 숫자들은 각기 다른 빈도를 갖고 있을 것이다. 그리고 주사위 하나를 생각해보자.

  • 정규 분포 실제로 가장 많이 적용되는 분포는 이항 분포이다. 하지만 이는 이산 확률 변수에 대해 정의되는 변수이다. 이번에는 연속 확률 분포들 중에서 대부분의 통계학 이론의 기본이 되는 정규분포에 대해서 공부한다.

  • 확률 분포를 완전히 정의하기 위해 필요한 값들 • 이항 분포에서는 성공 확률 p 가 매개변수. • 정규 분포에서는 평균 \mu 와 분산 \sigma^2 가 매개변수.

  • 단위 시간 안에 사건이 몇 번 발생할 것인지에 대한 분포 버스정류장에 버스가 도착한다고 하자. 이 때, 단위 시간을 10분으로 설정했을 때, 10분안에 도착하는 버스의 수를 랜덤 변수로 정의했을 때 정의되는 분포이다.

  • 확률 변수 여러 값을 무작위하게 가지는 변수 확률 변수는 반드시 확률 분포와 결합되어야 한다. 확률 변수는 이산적일 수도, 연속적일 수도 있다. 이산적일 경우 반드시 정수인 것은 아니다. 연속적인 경우 실수값들과 연관된다.

  • 확률이 p라는 것 반복이 가능한 경우(Frequentist Probability) 특정 실험을 “무한히 반복”했을 때, 해당 결과가 나오는 비율이 p 반복이 가능한 사건에 대한 확률은 이해하기 쉽다.

  • 확률변수 X가 따르는 분포 P(X)에서 추출된 x 로 구성된 함수 f(x)에 대한 분산 \text{Var} \text{Var}_{X \sim P} [f(x)] = \mathbb{E}_{X \sim P} [(f(x) - \mathbb{E}_{X \sim P} [f(x)])^2] 만약 \text{Var}_{X \sim P} 에서 확률분포 P(X)를 확실히 알 수 있다면 생략한다.