[패스트캠퍼스 환급챌린지]딥러닝/Chapter 1. 통계

[패스트캠퍼스][환급 챌린지]Chapter 1. 딥러닝을 위한 통계 01-15 편향과 오차

포리셔 2023. 3. 6. 23:27

01-15 편향과 오차

편향

이 세상에서 제일 무서운 사람은 많이 읽는 사람 아니야. 안 읽는 사람 아니야. 한 권 읽는 사람의 철학이 제일 무서운 거야!

def) 편향 (bias): 한쪽으로 치우침
사람이 어느 한 가지 분야에만 오로지 관심을 가질 때 생길 수 있는 부작용 중 하나로, 시야가 너무 편협해진다는 점이 있습니다. 위의 강호동의 말처럼 평생 책을 단 한 권만 읽은 사람은 오로지 그 책의 말에 따라 사고하고 판단할 것입니다. ML에서도 이 진리 격언은 그대로 쓰여서, 편향된 데이터(biased data)를 이용해 학습한 ML 모델은 그 외의 데이터까지 포괄하는 실제 데이터를 반영하지 못할 것입니다.
예를 들어, 해외의 얼굴 사진 데이터셋에는 대부분이 서양인 얼굴로 구성되어 있다고 합니다. 이런 데이터셋으로 학습시킨 데이터가 한국인 사진을 이용해 예측을 한다면? 학습된 ML은 서양인의 얼굴 특성을 인지할텐데, 한국인의 얼굴 특성에는 그런 특성이 없을 수도 있죠. 반대로 서양인의 얼굴에 없고 한국인의 얼굴에만 존재하는 특성이 있을 수도 있습니다. 따라서 이런 경우 ML의 정확도 내지는 신뢰도가 크게 떨어집니다.

편향과 분산

편향과 분산이 가끔 혼동되고는 하는데, 이 둘은 설명하는 개념이 완전히 다릅니다. 편향은 예측값이 정답(ML에서는 실제 데이터)과 얼마나 멀리 떨어져 있는지, 분산은 예측값들끼리 서로 얼마나 멀리 떨어져있는지를 뜻합니다. 아래 그림에서 정답은 빨간색 원으로 나타내었습니다. 이 때 예측 데이터인 별표는 분산이 낮을 때 편향에 관계없이 서로 밀집되어 있습니다. 반대로 편향이 낮을 때는 분산에 정도와는 반대로 그 중심부가 정답에 가까이 위치하게끔 분포되어 있습니다.

오차

def) 오차 (error): 정답과 ML 모델이 예측한 값의 차이
ML 모델을 학습시킬 때는 우리의 모델이 얼마나 정확하게 예측하는지를 평가해야 합니다. 보통 정답과 예측값이 얼마나 차이가 나는지, 즉 얼마나 잘못되었는지를 오차로 잡고 계산합니다. 조금 더 공부를 하다보면 비용 함수(cost function)과 손실 함수(loss function)이라는 개념이 나오는데 넓게 보면 이 오차를 뜻한다고 볼 수 있습니다. ML에서 오차를 계산할 때 이런저런 공식들을 많이 활용하지만, 그 중 가장 일반적으로 사용되는 오차를 소개해볼까 합니다.

평균 제곱 오차

def) 평균 제곱 오차 (Mean Squared Error, MSE): 오차를 제곱한 값의 평균

제곧내 말 그대로 오차를 제곱한 값의 평균으로, ML 분야에서 가장 흔히 사용되는 오차입니다. 정답을 $y$, 예측값을 $\hat{y}$라고 할 때, MSE의 공식은 아래와 같습니다.
$$MSE = \frac{1}{N}\sum_{i=1}{N}\left(\hat{y}_i-y_i\right)^2$$

딥러닝 라이브러리에서의 구현

ML, 특히 딥러닝 분야로 넘어오면 앞서 설명한 손실 함수, 즉 오차로 MSE를 많이들 사용합니다. 얼마나 흔히 사용되는지, 텐서플로우 등의 라이브러리에서는 아예 함수 이름을 지정해서 쓸 수 있게 해놨습니다. 아래 이미지는 제가 실제로 과거에 텐서플로우 라이브러리로 연습하면서 짰던 코드인데, 아예 loss 인수에 MeanSquaredError()라는 함수로 떡하니 자리잡고 있습니다. 보통 ML 교재들의 예제에서는 대개 MSE를 사용하는 것 같은데 정말 그런지는 모르겠습니다.

15일차 후기

15일 간 수학적 이론만 다뤘는데, 커리큘럼 상 17일차까지가 통계적 수학 이론이고, 그 다음날부터는 자료구조, 즉 컴퓨터공학의 영역으로 진행됩니다. 순수 통계와 컴퓨터 공학의 간극이 어떨지 조금 우려되네요.

http://bit.ly/3Y34pE0

 

패스트캠퍼스 [직장인 실무교육]

프로그래밍, 영상편집, UX/UI, 마케팅, 데이터 분석, 엑셀강의, The RED, 국비지원, 기업교육, 서비스 제공.

fastcampus.co.kr

* 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.