들어가기
인공지능 스터디하는 중간에 도움될 만한 수학 기초 일부를 단순 참고용으로 정리했다.
작성자: http://ospace.tistory.com/ (mailto:ospace114@empal.com)
확률과 통계
결합확률과 조건부확률
결합확률(Joint Probability)은 사건 A와 사건 B가 서로 독립사건일 때 동시에 일어날 확률이다.
조건부확률(Conditional Probability)또는 베이즈 정리(Bayes’ theorem)는 사건 B가 일어날때 사건 A가 일어날 확률이다.
이를 다르게 표현하면 B가 알고 있는 확률이고 A는 모르는 확률이다. P(A|B)를 B 확률이 있을 경우 알 수 있는 사후 확률(Posterior)이라고 한다. P(B|A)를 모르는 확률A을 안다고 가정하고 B확률에 대한 가능도 확률 (Likelihood)이라고 한다. P(A)를 A에 대한 일반적인 예측으로 사전 확률(Prior)이라고 한다.
평균, 분산, 그리고 공분산
평균을 살펴보자. n개 확률변수가 , , …, 일 때 평균 는 다음과 같다.
편차(Deviation)는 각 데이터가 평균값과 차이를 의미한다. 편차는 + 와 - 값을 가지고 그대로 합하면 0이 되기에 이를 제곱해서 더한 평균인 분산(Variance)개념을 사용한다. 분산으로 데이터가 흩어진 정도를 확인할 수 있다.
원래 단위로 맞추기 위해 분산에 제곱근한 표준편차(Standard Deviation)을 사용하고 σ으로 표기한다.
공분산(Covariance)은 두 데이터 간에 상관관계를 나타낸다. 두 데이터에 대한 n개 조합인 확률변수(X,Y) = {(x1,y1),(x2,y2),…,(xn,yn)}가 있을 경우 공분산 Cov(X,Y)은 다음과 같다.
여기서 은 X의 평균이고 은 Y의 평균이다. 공분산은 단위에 신경쓰지 않기 때문에 단위가 다른 데이터라도 공분산을 구할 수 있다. 공분산에서 중요한 핵심은 값 크기가 아닌 부호가 중요하다.
- 양(+): 서로 같은 방향으로 증가 또는 감소하는 의미
- 음(-): 서로 반대 방향으로 한쪽이 증가하면 다른 쪽은 감소한다는 의미
- 0: 관계가 없다는게 아니라 서로 상쇄되는 관계
상관계수
공분산에 의해 두 개 데이터 관계를 알 수 있지만 단순한 관계보다 관계 강도를 알고 싶을 수 있다. 이때 사용하는게 상관계수(Correlation Coefficient)이고 으로 표기한다.
여기서 은 공분산이고, 와 은 각각 X와 Y의 표준편차이다. 상관계수는 공분산을 각 표준편차로 나눠서 단위를 없애버려서 무차원수(Dimensionless Number)가 된다. 그래서 값이 -1에서 +1 사이로 정규화되어서 서로 간에 상관관계 강약을 비교할 수 있다.
최대 가능도(우도)추정
현실세계에서 확률은 수학적 확률과 차이가 있다. 일반적인 확률은 주어진 모수에서 데이터가 나올 가능성이지만, 우도는 주어진 데이터에서 최적 모수를 추정한다. 즉, 확률은 특정 조건이 주어지면 임의 데이터가 나올 가능성을 계산하지만 우도는 관측된 데이터를 바탕으로 최적 조건을 찾는다. 확률은 주어진 조건에서 결과를 예측하고, 우도는 주어진 결과로 조건을 추정한다.
가능도 함수는 각각의 관측 결과가 독립이고 동일한 분포라고 가정하고 확률 밀도 함수 곱으로 구할 수 있다.
식이 복잡해지면 계산이 어렵기 때문에 가능도 함수에 자연로그를 붙인 로그가능도함수 ln L(θ)을 사용하기도 한다.
정규분포인 데이터의 우도 확률에서 주어진 확률 조건이 평균 μ과 분산 σ인 경우 우도 확률은 다음 처럼 표현할 수 있다.
최대가능도추정(Maximum Likelihood Estimation, MLE)은 최대우도추정이라고 하며 가장 그럴듯한 값을 추정한다.
여기서 argmax은 최대가 되는 인자(Argument)을 의미한다. 즉, 파라미터 θ에 대한 가능도 함수 L(θ)를 최대화하는 θ를 구한다는 의미이다. 미분으로 표현하면 dL(θ) / dθ = 0 가되는 θ를 찾으면 된다.
주사위를 100번 던져서 관측할 결과 숫자 1이 20번 나왔다. 이는 베르누이 시행으로써 베르누이 분포라고 가정하고 100번 중에 20번이 1이 나온 경우의 수이므로 다음 L(θ) 식이 성립한다.
여기에서 최대 가능도를 추정해보자.
양쪽에 미분해서 구해보자.
이 식을 풀면 θ 은 0.2가 된다. 숫자 1이 나올 가장 그럴듯한 확률로 0.2이다라는 의미이다.
만약에 파라미터가 여러 개인 경우는 각 파라미터에 대해 편미분을 하면 된다.
최대 가능도추정법은 반복 시행에 의한 관찰 데이터로 부터 가장 그럴듯한 확률을 이끌어낸다. 즉, 위의 정규분포인경우 현재 관찰 결과 분포 확률에 가장 잘 맞는 정규분포 평균과 분산을 구할 수 있다.
이는 관찰된 데이터를 신뢰한다는 전제를 바탕으로 하여 사전분포를 구하기에 만약 데이터가 치우치게되면 엉뚱한 결과가 나오는 치명적인 약점이 있다. 그렇기에 데이터 많으면 많을수록 좀 더 좋은 결과가 나올 수 있다.
최대 사후 확률
최대 사후 확률(Maximum A Posterior, MAP)은 최대 가능도 추정법 약점을 보완하기 위해 베이즈 추정법 개념을 사용한다. 베이즈 추정법은 사전 확률과 데이터를 조합하여 사후 확률을 추정하는 방법이다. 이는 관찰 결과(상상한 가설)을 근거로 사전분포(확률)을 가정한다. 그런 후에 관찰을 통해 얻은 데이터는 사전분포에 의해 얻은 결과이므로 최대가 되는 조건부 확률(사후확률)를 구한다.
파라미터 θ에 대한 사후 확률 함수 P(θ)를 최대화하는 θ를 구한다는 의미이다. 관찰 결과에 대한 사후 확률는 바로 계산할 수 없다. 사후 확률 함수를 베이즈 정리를 이용해 사전 확률 분포와 가능도 확률 분포 곱으로 구한다. 그렇기에 결과에 사전 확률이 영향을 많이 받는다.
Odds
성공 확률과 실패확률 비율이다. 성공 확률이 p인 경우,
Logits
Odds에 로그를 위한 함수로 입력 p가 0에서 1까지이므로 출력 범위를 가진다.
참고
[1] 와쿠이 요시유키, 와쿠이 사다미, 처음 배우는 딥러닝 수학, 한빛미디어
[2] 이시카와 아키히코, 신상재 이진희, 인공지능을 위한 수학, 프리렉, 2019.09.16
'6.수학과 알고리즘' 카테고리의 다른 글
[그래픽] 폴리라인에서 오프셋 (0) | 2025.04.04 |
---|---|
[그래픽] 폴리라인에서 곡선처리 (1) | 2025.04.02 |
수학기초 7 - 확률과 통계 1 (0) | 2025.03.19 |
수학기초 6 - 행렬2 (3) | 2025.03.12 |
수학기초 5 - 행렬1 (2) | 2025.02.25 |