들어가기
정보이론은 1920년 Harry Nyquist와 Hartley에 의해서 만들어졌고 Claude Shannon에서 의해서 더 발전되었다. 정보이론은 정보의 불확실성을 수치화하고 정보를 손실없이 효율적으로 표현하고 채널을 통해 전달하는 방법을 연구하는 분야이다. 이 분야는 데이터 압축, 통신, 암호화, 머신러닝, 통계등에 여러 분야에 활용되고 있다. 여기서는 인공지능 기준으로 수학의 연속성으로 간주해서 단순 참고용으로 정리했다.
작성자: http://ospace.tistory.com/ (ospace114@empal.com)
정보량
정보량(Quantity of information)이란 놀람의 정도이다. 잘 알고 있어서 놀랄게 없다면 정보량이 적고, 경험하지 못한 놀람을 많이 준다면 정보량이 크다. 다르게 표현하면 이미 잘 알고 있으면 별다른 정보가 없고, 알지 못하는 새로운 것이 많다면 유의미한 정보가 많다고 할 수 있다. 이를 R. V. Hartley에 의해 아래와 같이 수치화했다.
$$ I(x) = - \log_ap(x) $$
p(x)는 x가 발생할 확률이고 a는 로그 밑으로 다양한 값이 올 수 있다. 로그 밑 중에 2인 경우 정보량 단위가 비트가 되고 e인 경우 정보량 단위가 nat(natural unit)가 되고 10인 경우는 dit(decimal digit)가 된다.
확률 p(x)가 작아질 수록 (놀람이 많은 또는 흔하지 않은) 정보량이 커지며, 반대로 커질수록 (잘 알고 있는 또는 자주 발생하는) 정보량은 0으로 수렴한다. 즉, 확률이 낮을 수록 정보량은 커지고, 확률이 높을 수록 정보량은 작아지는 형태로 서로 반대 방향으로 이동한다.
수식을 보자. p가 작아지면 -log p는 기하급수적으로 커지면서 엔트로피가 증가하게 된다. p가 작아지는 것에 비해 매우 커지게 된다. p가 1로 갈수록 -log p은 0에 가까워진다. 정보량 관점에서 보면 p가 1로 갈수록 확실하기에 정보량이 0으로 낮아지고, p가 0으로 갈수록 불확실하기에 정보량이 커진다.
엔트로피
엔트로피(Entropy)는 반복실행할 경우 얻는 평균 정보량(정보량 기댓값)이다. 불확실성에 대한 척도로서 값이 크다면 어떤 결과가 나올지 예측하기 어렵다는 의미이다.
$$ H(p) = E_p[I] = E_p[-\log p] = -\sum_{i=1}^n p(x_i) \log p(x_i) $$
교차 엔트로피
교차 엔트로피(Cross Entropy)는 예측 모델 분포 q와 실제 분포 p의 차이를 의미한다.즉 q가 p에 얼마나 비슷한지 표시한다. 비슷할 수록 H(p,q)는 H(p)에 가까워진다. 정보량 관점에서 두 확률 분포 p와 q를 구분하기 위해 필요한 정보량으로 비슷하면 작아지고 다르면 커지게된다.
$$ H(p,q) = E_p[-\log q] = -\sum_i p(x_i) \log q(x_i) $$
거의 같다면 0이되고 다르면 커지기 때문에 두 확률 분포 차이를 나타내는 지표가 된다.
MNIST에서 교차 엔트로피를 손실함수로 사용하고 있으며 다음과 같다.
$$ E = -\sum t \log_e y $$
여기서 t는 훈련 레이블이고 y는 신경망 출력이다.
참고
[1] 나무위키, 정보이론, https://namu.wiki/w/%EC%A0%95%EB%B3%B4%EC%9D%B4%EB%A1%A0
[2] 이시카와 아키히코, 신상재 이진희, 인공지능을 위한 수학, 프리렉, 2019.09.16
[3] bskyvision, [정보이론] 정보량과 엔트로피의 의미, [https://bskyvision.com/entry/정보이론-정보량과-엔트로피의-의미](https://bskyvision.com/entry/%EC%A0%95%EB%B3%B4%EC%9D%B4%EB%A1%A0-%EC%A0%95%EB%B3%B4%EB%9F%89%EA%B3%BC-%EC%97%94%ED%8A%B8%EB%A1%9C%ED%94%BC%EC%9D%98-%EC%9D%98%EB%AF%B8)
[4] desmos, [https://www.desmos.com/calculator](https://www.desmos.com/calculator)
'6.수학과 알고리즘' 카테고리의 다른 글
[알고리즘] 행렬 회전 (2) | 2025.04.11 |
---|---|
[그래픽] 폴리라인에서 오프셋 (0) | 2025.04.04 |
[그래픽] 폴리라인에서 곡선처리 (1) | 2025.04.02 |
수학기초 8 - 확률과 통계 2 (0) | 2025.03.27 |
수학기초 7 - 확률과 통계 1 (0) | 2025.03.19 |