Probability Theory

Logistic Function

2024년 10월 24일

Bernoulli Distribution을 따르는 이진 분류 문제에 사용되는 함수 Logistic Function f(x) = \frac L{1 + e^{(-k(x - x_0))}} L: 함수의 최댓값 k: 함수의 경사도 (로지스틱 성장률) x_0: 함수의 중심 Standard Logistic Function (Sigmoid Function) logit^{-1}(x) = \sigma(x) = \frac{1}{1 + e^{-x}} Logit 함수의 역함수 의미 어떠한 성장의 단계를 나타내는 함수 초기에는 기하급수적, 포화가 시작되면...

sigmoid

Logit

2024년 10월 24일

Odds에 로그를 취한 값 Logit(p) = \log \left( \frac{p}{1-p} \right) 의미 성공 확률 p와 실패 확률 1-p의 비율에 로그를 취한 값 왜 사용하는가 선형 회귀 모델을 이진 분류 문제에 적용할 때 사용한다.

Odds

2024년 10월 24일

Odds = \frac{p}{1-p} 의미 성공 확률 p와 실패 확률 1-p의 비율 성공 확률 p가 실패 확률 1-p에 비해 몇 배 높은지를 나타내는 지표 그래프 Reference Odds .

Softmax Function

2024년 10월 24일

Categorical Distribution을 따르는 다중 분류 문제에 사용되는 함수 Softmax Function f(x_i) = \frac{e^{x_i}}{\sum_{j=1}^{K} e^{x_j}} Logistic Function의 다차원 일반화 Reference Softmax Function - Wikipedia .

softmax

Chain Rule

2024년 10월 22일

다변수 확률 분포를 각각의 조건부 확률로 나누어 계산할 수 있는 방법 연쇄법칙 확률 변수 X_1, X_2, \dots, X_n의 결합 확률 p(X_1, X_2, \dots, X_n)는 다음과 같은 조건부 확률의 곱으로 표현될 수 있다.

statistics

Parameter

2024년 10월 22일

확률 분포를 완전히 정의하기 위해 필요한 값들 • 이항 분포에서는 성공 확률 p 가 매개변수. • 정규 분포에서는 평균 \mu 와 분산 \sigma^2 가 매개변수.

statistics

Structured Probabilistic Model

2024년 10월 22일

다변수 확률 분포의 복잡성 기계 학습 알고리즘을 확률 분포로 생각해보자. 굉장히 많은 확률 변수가 관여함에도, 비교적 적은 수의 변수들만 서로간의 직접적인 상호작용을 갖는다. 즉, 대부분은 독립적인 확률변수이고, 몇몇만 종속적이다.

machine-learning

Likelihood

2024년 9월 24일

주어진 모델의 파라미터가 주어졌을 때, 관찰된 데이터가 실제로 나타날 확률.

Mixture of Distribution

2024년 9월 24일

혼합 분포 특정 분포를 만드는데 있어, 여러개의 확률 분포를 사용하는 것. 상황을 하나 생각해보자. 1에서 6까지의 숫자가 나열되어 있는 분포를 생각해보자. 해당 숫자들은 각기 다른 빈도를 갖고 있을 것이다. 그리고 주사위 하나를 생각해보자.

Empirical Distribution

2024년 9월 23일

p(x) = \delta(x - \mu) Dirac Delta Function은 0을 제외한 모든 곳에서는 값이 0이나, 적분하면 1이 되는 함수이다. 이를 확률 밀도함수 p(x)로 사용하면, x=\mu일 때 확률이 1이 되는 함수가 된다.

Exponential Distribution

2024년 9월 23일

한번의 사건이 발생하는데 까지 걸리는 시간에 대한 분포 Poisson Distribution 에서는 단위 시간에 발생하는 횟수에 대해 궁금했다면, 이번에는 하나의 사건이 발생하는데 까지 걸리는 시간을 확률 변수로 잡는다. 이 때 발생하는 분포가 지수 분포이다.

Laplace Distribution

2024년 9월 23일

확률질량의 최고점을 특정점에 두는 분포 Laplace(x| \mu, \gamma) = \frac{1}{2\gamma} \exp \left( -\frac{|x-\mu|}{\gamma} \right) 그려보면 x=\mu에서 최고점을 가지는 분포임을 알 수 있다.

Poisson Distribution

2024년 9월 23일

단위 시간 안에 사건이 몇 번 발생할 것인지에 대한 분포 버스정류장에 버스가 도착한다고 하자. 이 때, 단위 시간을 10분으로 설정했을 때, 10분안에 도착하는 버스의 수를 랜덤 변수로 정의했을 때 정의되는 분포이다.

Bernoulli Distribution

2024년 9월 12일

확률 변수의 값이 성공 혹은 실패로 나타나는 경우에 따른 분포 동전을 던졌을 때, 앞면이 나오는 사건에 대한 값을 확률 변수로 잡는 경우가 해당된다. 해당 사건이 나오는 확률을 정의해야 분포가 정의된다.

Categorical Distribution

2024년 9월 12일

서로 다른 상태가 K개인 하나의 이산 변수에 관한 확률 분포, K는 유한한 값.

Central Limit Theorem

2024년 9월 12일

어떠한 모집단이더라도, 모집단의 평균이 \mu 이고, 분산이 \sigma^2 일 때, 임의추출된 표본의 표본 평균 \bar X 는 표본의 크기가 클 경우 정규분포를 따른다.

Expectation

2024년 9월 12일

확률변수 X가 따르는 분포 P(X)에서 추출된 x 로 구성된 함수 f(x)에 대한 평균 \mathbb{E} \mathbb{E}_{X \sim P} [f(x)] = \sum_x P(x) f(x) \mathbb{E}_{X \sim P} [f(x)] = \int p(x) f(x) \, dx 만약 \mathbb{E}_{X \sim P} 에서 확률분포 P(X)를 확실히 알 수 있다면 생략한다.

Variance

2024년 9월 12일

확률변수 X가 따르는 분포 P(X)에서 추출된 x 로 구성된 함수 f(x)에 대한 분산 \text{Var} \text{Var}_{X \sim P} [f(x)] = \mathbb{E}_{X \sim P} [(f(x) - \mathbb{E}_{X \sim P} [f(x)])^2] 만약 \text{Var}_{X \sim P} 에서 확률분포 P(X)를 확실히 알 수 있다면 생략한다.

Conditional Probability

2024년 9월 11일

조건부 확률 P(A \mid B) = \frac{P(A \cap B)}{P(B)} 조건부 확률 P(A \mid B) 는 사건 B 가 발생했을 때 사건 A 가 발생할 확률 여기서 P(A \mid B) 는 “B가 주어졌을 때 A의 확률” P(A \mid B) : 사건 B 가 발생했을 때 사건 A 가 발생할 확률 P(A \cap B) : 사건 A 와 사건 B 가 동시에 발생할 확률 (즉, A 와 B 의 교집합의 확률) P(B) : 사건 B 가 발생할 확률 여기서, P(B) 는 B 가 발생할 확률이 0이 아닌 경우에만 정의.

Random Variable

2024년 9월 11일

확률 변수 여러 값을 무작위하게 가지는 변수 확률 변수는 반드시 확률 분포와 결합되어야 한다. 확률 변수는 이산적일 수도, 연속적일 수도 있다. 이산적일 경우 반드시 정수인 것은 아니다. 연속적인 경우 실수값들과 연관된다.

The Necessity of probability

2024년 9월 11일

확률이 p라는 것 반복이 가능한 경우(Frequentist Probability) 특정 실험을 “무한히 반복”했을 때, 해당 결과가 나오는 비율이 p 반복이 가능한 사건에 대한 확률은 이해하기 쉽다.

Introduction

2023년 10월 4일

통계 개념 정리에 앞서 통계학이라는 학문에 대해 알아본다. 통계는 왜 공부하는가 미래를 알기 위해서, 집단의 특징을 알기 위해서 우리는 군중의 특징에 대해 알 필요가 있다. 예를 들어 물건을 판다고 생각해보자.

Center of Data

2023년 10월 4일

데이터의 중심을 나타내는 척도에 대해서 배워본다. 평균 (mean) 평균은 대표적으로 집단의 중심위치를 나타내는 척도로 사용된다. 이 평균에는 보통 3종류가 사용된다.

Variation

2023년 10월 4일

데이터를 설명하는 또 다른 척도인 변동성에 대해 알아본다. 변동성 데이터의 분포를 나타냄에 있어 퍼진 정도를 측정한다. 범위 range = 최대 관측치 - 최소 관측치 해당 데이터의 값이 어디서 부터 어디까지인지 나타낸다.

Box Plot

2023년 10월 4일

데이터를 설명하는 상대위치와 이를 나타내는 box plot에 대해 알아본다. 상대위치 중앙값이 50%에 위치하는 분위수라면, 이에 대응하는 다양한 분위수가 존재한다. 백분위수 분포를 100개로 쪼개어 생각하는 것이다.

Covarience & Coefficient

2023년 10월 4일

데이터의 두 변수간 선형관계를 나타내는 척도에 대해서 알아본다. 선형관계 두 변수의 관계를 알아보는 것은 매우 중요하다. 어떠한 연관성을 통하여 유의미한 정보를 이끌어 낼 수 있기 때문이다. 이러한 선형관계를 알아내는 척도는 3가지 정도가 알려져 있다.

Sampling

2023년 10월 4일

모집단을 추정하기 위한 표본을 추출하는 방법에 대해 알아본다. 표본 추출 단순 랜덤 추출 단순히 랜덤하게 모집단에서 추출하는 방법이다. 집단의 분포가 불균형할 경우 모집단의 특성을 대변하지 못한다는 단점이 있다.

Probability

2023년 10월 4일

확률에 대해 이해한다. 사건에 확률을 부여하는 방법 동전의 앞면이 나오는 것을 사건 A라 정의했을 때, P(A)를 구하는 방법에 대해 알아보자. 고전적 방법 단순히 1/2라 생각한다. 이 생각의 배경에는 앞면과 뒷면이 나오는 가능성이 동일하다 생각하고 부여한다.

Distribution

2023년 10월 4일

확률분포에 대해 이해한다. 왜 배우는가? 실생활에서 결국 엔지니어가 수행하는 역할은, 다양한 문제에 대해 이를 다룰 수 있는 문제로 바꾸는 것에 있다. 확률과 같이 애매하게 보이는 개념을 어떻게 수치화하여, 다룰 수 있는 문제로 바꾸는지에 대한 내용이 대부분이다.

Discrete Probability Distribution

2023년 10월 4일

대표적으로 사용하는 이산 확률 변수에 대한 분포를 알아본다. 의미적으로 이해하는 것을 우선으로 한다. 초기하 분포 n번의 시행에서 k번 성공할 확률, 그런데 독립시행이 아닐 경우의 분포 주머니에 10개의 공이 있다. 이 때 파란공이 3개, 빨간공이 7개 이다.

Continuous Probability Distribution

2023년 10월 4일

대표적으로 사용하는 연속 확률 변수에 대한 분포를 알아본다. 의미적으로 이해하는 것을 우선으로 한다. 감마 분포 a번째 사건이 발생할 때까지 걸리는 시간에 대한 분포 음이항 분포와 매우 비슷하다.

Sample Distribution

2023년 10월 4일

표본 분포와 통계량에 대해 이해한다. 추론 (inference) 표본을 가지고 모집단의 특성(모수)를 예측하는 것 통계학의 핵심은 내가 원하는 집단의 특징을 알아내는 것이다.

Statistical Inference

2023년 10월 4일

통계적 추론에 대해 이해한다. 통계적 추론 표본이 갖고 있는 정보를 분석하여 모수에 관한 결론을 유도하고, 모수에 대한 가설의 옳고 그름을 판단하는 것 추정의 방법 모수를 추정하는 방법에 대해서 알아본다. 점 추정 모수를 추정하기 위해 하나의 값을 제안한다.

Normal Distribution

2023년 10월 4일

정규 분포 실제로 가장 많이 적용되는 분포는 이항 분포이다. 하지만 이는 이산 확률 변수에 대해 정의되는 변수이다. 이번에는 연속 확률 분포들 중에서 대부분의 통계학 이론의 기본이 되는 정규분포에 대해서 공부한다.

Explorer

Recent Notes

Probability Theory