28건의 항목
통계 개념 정리에 앞서 통계학이라는 학문에 대해 알아본다. 통계는 왜 공부하는가 미래를 알기 위해서, 집단의 특징을 알기 위해서 우리는 군중의 특징에 대해 알 필요가 있다. 예를 들어 물건을 판다고 생각해보자.
데이터의 중심을 나타내는 척도에 대해서 배워본다. 평균 (mean) 평균은 대표적으로 집단의 중심위치를 나타내는 척도로 사용된다. 이 평균에는 보통 3종류가 사용된다.
데이터를 설명하는 또 다른 척도인 변동성에 대해 알아본다. 변동성 데이터의 분포를 나타냄에 있어 퍼진 정도를 측정한다. 범위 range = 최대 관측치 - 최소 관측치 해당 데이터의 값이 어디서 부터 어디까지인지 나타낸다.
데이터를 설명하는 상대위치와 이를 나타내는 box plot에 대해 알아본다. 상대위치 중앙값이 50%에 위치하는 분위수라면, 이에 대응하는 다양한 분위수가 존재한다. 백분위수 분포를 100개로 쪼개어 생각하는 것이다.
데이터의 두 변수간 선형관계를 나타내는 척도에 대해서 알아본다. 선형관계 두 변수의 관계를 알아보는 것은 매우 중요하다. 어떠한 연관성을 통하여 유의미한 정보를 이끌어 낼 수 있기 때문이다. 이러한 선형관계를 알아내는 척도는 3가지 정도가 알려져 있다.
모집단을 추정하기 위한 표본을 추출하는 방법에 대해 알아본다. 표본 추출 단순 랜덤 추출 단순히 랜덤하게 모집단에서 추출하는 방법이다. 집단의 분포가 불균형할 경우 모집단의 특성을 대변하지 못한다는 단점이 있다.
확률에 대해 이해한다. 사건에 확률을 부여하는 방법 동전의 앞면이 나오는 것을 사건 A라 정의했을 때, P(A)를 구하는 방법에 대해 알아보자. 고전적 방법 단순히 1/2라 생각한다. 이 생각의 배경에는 앞면과 뒷면이 나오는 가능성이 동일하다 생각하고 부여한다.
확률분포에 대해 이해한다. 왜 배우는가? 실생활에서 결국 엔지니어가 수행하는 역할은, 다양한 문제에 대해 이를 다룰 수 있는 문제로 바꾸는 것에 있다. 확률과 같이 애매하게 보이는 개념을 어떻게 수치화하여, 다룰 수 있는 문제로 바꾸는지에 대한 내용이 대부분이다.
대표적으로 사용하는 이산 확률 변수에 대한 분포를 알아본다. 의미적으로 이해하는 것을 우선으로 한다. 초기하 분포 n번의 시행에서 k번 성공할 확률, 그런데 독립시행이 아닐 경우의 분포 주머니에 10개의 공이 있다. 이 때 파란공이 3개, 빨간공이 7개 이다.
대표적으로 사용하는 연속 확률 변수에 대한 분포를 알아본다. 의미적으로 이해하는 것을 우선으로 한다. 감마 분포 a번째 사건이 발생할 때까지 걸리는 시간에 대한 분포 음이항 분포와 매우 비슷하다.
표본 분포와 통계량에 대해 이해한다. 추론 (inference) 표본을 가지고 모집단의 특성(모수)를 예측하는 것 통계학의 핵심은 내가 원하는 집단의 특징을 알아내는 것이다.
통계적 추론에 대해 이해한다. 통계적 추론 표본이 갖고 있는 정보를 분석하여 모수에 관한 결론을 유도하고, 모수에 대한 가설의 옳고 그름을 판단하는 것 추정의 방법 모수를 추정하는 방법에 대해서 알아본다. 점 추정 모수를 추정하기 위해 하나의 값을 제안한다.
서로 다른 상태가 K개인 하나의 이산 변수에 관한 확률 분포, K는 유한한 값.
어떠한 모집단이더라도, 모집단의 평균이 \mu 이고, 분산이 \sigma^2 일 때, 임의추출된 표본의 표본 평균 \bar X 는 표본의 크기가 클 경우 정규분포를 따른다.
다변수 확률 분포를 각각의 조건부 확률로 나누어 계산할 수 있는 방법 연쇄법칙 확률 변수 X_1, X_2, \dots, X_n의 결합 확률 p(X_1, X_2, \dots, X_n)는 다음과 같은 조건부 확률의 곱으로 표현될 수 있다.
조건부 확률 P(A \mid B) = \frac{P(A \cap B)}{P(B)} 조건부 확률 P(A \mid B) 는 사건 B 가 발생했을 때 사건 A 가 발생할 확률 여기서 P(A \mid B) 는 “B가 주어졌을 때 A의 확률” P(A \mid B) : 사건 B 가 발생했을 때 사건 A 가 발생할 확률 P(A \cap B) : 사건 A 와 사건 B 가 동시에 발생할 확률 (즉, A 와 B 의 교집합의 확률) P(B) : 사건 B 가 발생할 확률 여기서, P(B) 는 B 가 발생할 확률이 0이 아닌 경우에만 정의.
p(x) = \delta(x - \mu) Dirac Delta Function은 0을 제외한 모든 곳에서는 값이 0이나, 적분하면 1이 되는 함수이다. 이를 확률 밀도함수 p(x)로 사용하면, x=\mu일 때 확률이 1이 되는 함수가 된다.
확률변수 X가 따르는 분포 P(X)에서 추출된 x 로 구성된 함수 f(x)에 대한 평균 \mathbb{E} \mathbb{E}_{X \sim P} [f(x)] = \sum_x P(x) f(x) \mathbb{E}_{X \sim P} [f(x)] = \int p(x) f(x) \, dx 만약 \mathbb{E}_{X \sim P} 에서 확률분포 P(X)를 확실히 알 수 있다면 생략한다.
한번의 사건이 발생하는데 까지 걸리는 시간에 대한 분포 Poisson Distribution 에서는 단위 시간에 발생하는 횟수에 대해 궁금했다면, 이번에는 하나의 사건이 발생하는데 까지 걸리는 시간을 확률 변수로 잡는다. 이 때 발생하는 분포가 지수 분포이다.
확률질량의 최고점을 특정점에 두는 분포 Laplace(x| \mu, \gamma) = \frac{1}{2\gamma} \exp \left( -\frac{|x-\mu|}{\gamma} \right) 그려보면 x=\mu에서 최고점을 가지는 분포임을 알 수 있다.
주어진 모델의 파라미터가 주어졌을 때, 관찰된 데이터가 실제로 나타날 확률.
혼합 분포 특정 분포를 만드는데 있어, 여러개의 확률 분포를 사용하는 것. 상황을 하나 생각해보자. 1에서 6까지의 숫자가 나열되어 있는 분포를 생각해보자. 해당 숫자들은 각기 다른 빈도를 갖고 있을 것이다. 그리고 주사위 하나를 생각해보자.
정규 분포 실제로 가장 많이 적용되는 분포는 이항 분포이다. 하지만 이는 이산 확률 변수에 대해 정의되는 변수이다. 이번에는 연속 확률 분포들 중에서 대부분의 통계학 이론의 기본이 되는 정규분포에 대해서 공부한다.
확률 분포를 완전히 정의하기 위해 필요한 값들 • 이항 분포에서는 성공 확률 p 가 매개변수. • 정규 분포에서는 평균 \mu 와 분산 \sigma^2 가 매개변수.
단위 시간 안에 사건이 몇 번 발생할 것인지에 대한 분포 버스정류장에 버스가 도착한다고 하자. 이 때, 단위 시간을 10분으로 설정했을 때, 10분안에 도착하는 버스의 수를 랜덤 변수로 정의했을 때 정의되는 분포이다.
확률 변수 여러 값을 무작위하게 가지는 변수 확률 변수는 반드시 확률 분포와 결합되어야 한다. 확률 변수는 이산적일 수도, 연속적일 수도 있다. 이산적일 경우 반드시 정수인 것은 아니다. 연속적인 경우 실수값들과 연관된다.
확률이 p라는 것 반복이 가능한 경우(Frequentist Probability) 특정 실험을 “무한히 반복”했을 때, 해당 결과가 나오는 비율이 p 반복이 가능한 사건에 대한 확률은 이해하기 쉽다.
확률변수 X가 따르는 분포 P(X)에서 추출된 x 로 구성된 함수 f(x)에 대한 분산 \text{Var} \text{Var}_{X \sim P} [f(x)] = \mathbb{E}_{X \sim P} [(f(x) - \mathbb{E}_{X \sim P} [f(x)])^2] 만약 \text{Var}_{X \sim P} 에서 확률분포 P(X)를 확실히 알 수 있다면 생략한다.