들어가기

인공지능 스터디하는 중간에 도움될 만한 수학 기초 일부를 단순 참고용으로 정리했다.

작성자: http://ospace.tistory.com/ (ospace114@empal.com)

선형변환

선형변환(Linear Transformation)은 벡터를 다른 벡터로 변환하는 함수이다. 즉, 다르게 말하면 한 벡터공간에서 다른 벡터 공간으로 변환한다고 보면 된다. 이때 덧셈과 스칼라 곱셈에 대해서 닫혀있어야 한다.

덧셈
$T(\bold u+ \bold v) = T(\bold u) + T(\bold v)$
스칼라 곱셈
$T(c\bold v) = cT(\bold v)$

여시서 T는 선형변환 함수이고, u, v는 벡터이고, c는 스칼라이다. 선형변환 함수는 행렬 곱셈으로 표현 가능하며, 항상 원점(T(0) = 0)을 지난다. 아래 간단한 예를 보자.

$$ A = \begin{bmatrix}-1 & 2\\1 & 1\end{bmatrix}, b = \begin{bmatrix}3\\2\end{bmatrix} \rArr Ab = \begin{bmatrix}-1 & 2\\1 & 1\end{bmatrix} \begin{bmatrix}3\\2\end{bmatrix} = \begin{bmatrix}1\\5\end{bmatrix} $$

A가 선형변환에 사용하는 행렬이고 $b_1$은 벡터에 해당한다. 선형변환에 의해서 새로운 벡터로 변환된다.

벡터 공간에 표준기저(Standard Basis)인 e를 정의한다. 표준기저는 x축, y축 같은 기본적인 좌표계를 정하는 벡터 집합으로 보통 단위 벡터로 구성된다. 다르게 표현하면 표준기저는 벡터 공간에 기본 축 역할을 한다. 표준기저 $e_x$과 $e_y$가 다음과 같을 때에 벡터 b을 표현해보자.

$$ e_x = \begin{bmatrix}1\\0\end{bmatrix},e_y = \begin{bmatrix}0\\1\end{bmatrix},b = \begin{bmatrix}3\\2\end{bmatrix}\\ b = 3\begin{bmatrix}1\\0\end{bmatrix}+2\begin{bmatrix}0\\1\end{bmatrix} = 3e_x + 2e_y $$
즉, $e_x$ 방향으로 3, $e_y$ 방향으로 2을 가지는 벡터라고 보면 된다.

A을 열벡터로 구분해서 $e_1$과 $e_2$로 나누면, $A=(e_1, e_2)$가 된다.

$$ A=\begin{bmatrix}-1 & 2\\1 & 1\end{bmatrix}, e_1 = \begin{bmatrix}-1\\1\end{bmatrix}, e_2 = \begin{bmatrix}2\\1\end{bmatrix} $$

이를 이용해서 Ab를 계산하면, $b_1$에서 $e_x$에 $e_1$가 대입되고 $e_y$에 $e_2$가 대입되는 형태가 된다.

$$ \begin{align*} Ab &= \begin{bmatrix}-1 & 2\\1 & 1\end{bmatrix}\left( 3 \begin{bmatrix}1\\0\end{bmatrix} +2\begin{bmatrix}0\\1 \end{bmatrix}\right)\\ &= 3\begin{bmatrix}-1 & 2\\1 & 1\end{bmatrix} \begin{bmatrix}1\\0\end{bmatrix} +2\begin{bmatrix}-1 & 2\\1 & 1\end{bmatrix} \begin{bmatrix}0\\1 \end{bmatrix}\\ &= 3\begin{bmatrix}-1 \\1 \end{bmatrix}+2\begin{bmatrix} 2\\1\end{bmatrix} = 3e_1 + 2e_2 = \begin{bmatrix} 1\\5\end{bmatrix} \end{align*} $$

Ab은 $e_1$ 방향으로 3만큼, $e_2$ 방향으로 2만큼 움직였다고 말할 수 있다. 이 수식에 대해 기하학적 관점에서 $e_x$와 $e_y$가 $e_1$과 $e_2$으로 변환될 경우 b의 변경된 위치를 의미한다. 이 계산은 회전, 축소, 확대 같은 효과를 보인다. 결론적으로 표준기저를 다른 기저로 변환다고 말할 수 있다. 이런 벡터 변환을 선형변환 또는 1차변환이라고 한다. 이런 선형변환에서 컴퓨터 그래픽스에서 사용되는 특별한 선형변환으로는 확대, 회전, 평행이동, 투시투영 등이 있다.

고유값과 고유벡터

정방행렬 A가 있고 다음 식을 만족하는 벡터 x(x ≠ 0) 가 존재한다면

$$ A \bold x = \lambda E \bold x $$

여기서 행렬A에 대해 λ를 고유값( Eigenvalue), x를 고유벡터(Eigenvector)라고 한다. 벡터 x가 크기만 λ배로 크기만 변한다. 식을 모두 좌변을 옮기면 다음처럼 만들 수 있다.

$$ (A-\lambda E) \bold x = 0 $$

만약 (A-λE) 역행렬이 있다면 양쪽에 역행렬을 곱해서 정리해보자.

$$ (A-\lambda E)^{-1}(A-\lambda E) \bold x = (A-\lambda E)^{-1}0\\ \bold x = (A-\lambda E)^{-1}0 = 0 $$

앞의 x ≠ 0이라는 조건과 모순된다. 그러므로 고유 벡터가 존재하기 위해서는 역행렬을 가지면 안된다.

$$ det(A-\lambda E) = 0 $$

이 λ 방정식을 A의 고유방정식(Eigenvalue Equation)이라고 한다. 이는 선형변환에서 회전없이 축소나 확대만 있는 특이한 경우로 벡터 길이의 비율만 달라지는 경우이다. 길이 비율이 고유값이 되고 그때 벡터 방향이 고유벡터가 된다.

예를 들어, 행렬 $A=\begin{bmatrix}2&4\\-1&-3\end{bmatrix}$에 대한 고유값과 고유벡터를 구해보자. 먼저 앞에 고유벡터가 존재하기 위한 λ 를 구해보자.

$$ \det \left( \begin{bmatrix} 2&4\\-1&-3\end{bmatrix} - \lambda \begin{bmatrix} 1&0\\0&1\end{bmatrix}\right)=0\\ \det \begin{bmatrix} 2-\lambda&4\\-1&-3-\lambda\end{bmatrix}=0\\ (2-\lambda)(-3-\lambda)-4(-1)=0\\ \lambda^2 + \lambda -2 = 0\\ (\lambda+2)(\lambda-1)=0 $$

결과는 λ가 -2또는 1이다. 이을 대입하여 고유벡터를 구해보자.

먼저, λ = -2인 경우 (A-(-2)E)x = 0을 만족하는 x를 구하면 된다.

$$ (A-(-2)E)\bold x = \begin{bmatrix}2-(-2)&4\\-1&-3-(-2)\end{bmatrix} \bold x = \begin{bmatrix}4&4\\-1&-1\end{bmatrix}\bold x=0 $$

x를 $\begin{bmatrix}\alpha\\ \beta\end{bmatrix}$라고 하면 $\begin{bmatrix}4&4\\-1&-1\end{bmatrix}\begin{bmatrix}\alpha\\ \beta \end{bmatrix}=\begin{bmatrix}0\\0\end{bmatrix}$을 풀면 α + β = 0이 된다. α 를 임의 상수 t라고 하면 β는 -t가 된다. 결국 x는 $\begin{bmatrix}1\\-1\end{bmatrix}$ 에 대한 t 상수배 값이 된다.

다음으로, λ = 1인 경우 (A-E)x = 0을 만족하는 x를 구하면 된다. 앞의 경우와 동일하게 풀면 x는 $\begin{bmatrix}4\\-1\end{bmatrix}$ 상수배가 된다.

행렬에 대해 고유값과 고유벡터가 두 개씩 있다는 것을 확인할 수 있다. 신경망에서 비지도 학습의 기여율(Coefficient of Determination, 결정계수)을 구할때에 사용한다. 각 주성분인 고유 벡터에 대응하는 고윳값을 전체 고윳값 총합으로 나눈 값이다. 주성분이 데이터를 얼마나 잘 설명하는지 평가하는 척도로 사용된다.

차원정리

차원 정리는 선형변환(T: V → W)에서 정의역과 공역 사이의 차원 관계를 설명하는 정리이다.

$$ rank(T)+nullity(T)=n $$

rank(T)은 T의 상(Image) 차원이고 nullity은 T의 핵(Kernel) 차원이며, n은 정의역 V의 차원이다. 이를 해석하면 선형변환으로 보존되는 정보(rank)와 손실되는 정보(nulltiy) 합은 정의역 차원(n)과 같다. 이를 아래 식으로 표현할 수 있다.

$$ \dim ker(T) + \dim Im(T) = \dim V $$

ker(T)은 사상 T의 핵(Kernel)이고 Im(T)은 사상 T의 상공간(Image), dim은 차원을 의미한다. 핵을 구하는 방법은 선형변환이 0으로 보내는 벡터들 집합으로 T(x) = Ax 행렬에서 상이 제로벡터가 되는 Ax = 0의 해를 구하고 기저로 표현한다. 상을 구하는 방법은 선형변현으로 나올 수 있는 열 벡터들이 생성하는 부분 공간으로 T(x) = Ax에서 A의 열 벡터에 선형 독립인 벡터를 찾고 기저로 표현한다.

간단한 예로 살펴보자. 아래 행렬에 대해 차원 정리가 성립하는지 살펴보자.

$$ \begin{bmatrix}1&0&3&1\\0&1&1&2\end{bmatrix} $$

먼저 핵을 구해보자. Ax = 0 을 만족하는 해를 구해보자.

$$ \begin{bmatrix}1&0&3&1\\0&1&1&2\end{bmatrix}\begin{bmatrix}x_1\\x_2\\x_3\\x_4\\\end{bmatrix} = \begin{bmatrix}0\\0\end{bmatrix} $$

핵을 구하기 전에 가우스 소거법으로 정리하면 해를 구하기 쉬워진다. 위의 예는 소거법을 정리할 필요는 없다. 이를 연립 방정식으로 쓰면 아래와 같다.

$$ x_1 + 3x_3+x_4 = 0\\x_2+x_3+2x_4=0 $$

자유 변수 x_3, x_4를 기준으로 해를 구하면 다음과 같다.

$$ x_1=-3x_3-x_4\\ x_2 = -x_3 -2x_4 $$

핵은 다음과 같다.

$$ ker(T)= span \left \{ \begin{bmatrix}-3\\-1\\1\\0\\\end{bmatrix}, \begin{bmatrix}-1\\-2\\0\\1\\\end{bmatrix} \right \} $$

즉, 핵의 차원인 dim ker(T)는 2가 된다.

다음으로 상을 구해보자. 먼저 열벡터는 다음과 같다.

$$ \bold v_1=\begin{bmatrix}1\\0\end{bmatrix}, \bold v_2=\begin{bmatrix}0\\1\end{bmatrix},\bold v_3=\begin{bmatrix}3\\1\end{bmatrix},\bold v_4=\begin{bmatrix}1\\2\end{bmatrix} $$

열벡터 중에 선형 독립인 벡터를 찾으면 된다. 선형 독립은 $c_1 \bold v_1 + c_2 \bold v_2 + c_3 \bold v_3 + c_4 \bold v_4 =0$인 경우 c1, c2, c3, c4가 0이 되면 선형 종속이 되고 0이 아닌 값으로 풀린 경우 선형 독립이 된다. 소거법으로 정리하면 선형 독립을 판단하기 쉬워진다.

$$ \begin{bmatrix}1&0&3&1\\0&1&1&2\end{bmatrix}\begin{bmatrix}c_1\\c_2\\c_3\\c_4\end{bmatrix}=\begin{bmatrix}0\\0\end{bmatrix} $$

위의 경우 $\bold v_3 = 2\bold v_1 + \bold v_2$, $\bold v_4 = \bold v_1 + 2 \bold v_2$가 성립한다. 그러므로 선형 독립인 벡터는 $\bold v_1$, $\bold v_2$가 된다. 상은 다음과 같다.

$$ Im(T) = span \left \{ \begin{bmatrix}1\\0 \end{bmatrix}, \begin{bmatrix}0\\1 \end{bmatrix} \right \} $$

즉, 상의 차원인 dim Im(T)는 2가 된다.

결국, 정의역 차원 n은 4, 핵의 차원 dim ker(T)은 2, 상의 차원 dim Im(T)은 2이므로 2 + 2 =4로서 차원 정리는 성립한다.

출처

[1] 와쿠이 요시유키, 와쿠이 사다미, 처음 배우는 딥러닝 수학, 한빛미디어

[2] 이시카와 아키히코, 신상재 이진희, 인공지능을 위한 수학, 프리렉, 2019.09.16

[3] Shin Takahashi, Linear algebra 만화로 쉽게 배우는 선형대수, 성안당, 2016.08.25

저작자표시 비영리 변경금지 (새창열림)

'6.수학과 알고리즘' 카테고리의 다른 글

수학기초 8 - 확률과 통계 2 (0)	2025.03.27
수학기초 7 - 확률과 통계 1 (0)	2025.03.19
수학기초 5 - 행렬1 (5)	2025.02.25
수학기초 4- 벡터 (0)	2025.02.18
수학기초 3 - 미분과 적분 (2)	2025.02.14

JaPa2

수학기초 6 - 행렬2

들어가기

선형변환

고유값과 고유벡터

차원정리

출처

'6.수학과 알고리즘' 카테고리의 다른 글

티스토리툴바

수학기초 6 - 행렬2

들어가기

선형변환

고유값과 고유벡터

차원정리

출처

'6.수학과 알고리즘' 카테고리의 다른 글

'6.수학과 알고리즘' Related Articles

티스토리툴바