[패스트캠퍼스 환급챌린지]딥러닝/Chapter 1. 통계

[패스트캠퍼스][환급챌린지]Part 1. 딥러닝을 위한 통계: 01-01 확률 개요

포리셔 2023. 2. 20. 23:56

환급챌린지 데일리 미션, 드디어 30일간의 미션 시작입니다.

그럼 제일 기초부터 들어갑니다. 머신러닝과 딥러닝에서 가장 중요하고 유용한 개념인 확률과 통계부터 짚고 들어갑니다. 솔직한 심정으로, 고3 때 확.통을 제일 기피했던 저로서는 머신러닝 공부를 시작하면서 그때 좀 더 공부해둘걸 싶은 때가 한두 번이 아니었습니다... 반대로 공부하면서 가장 도움이 되기도 한 게 확통이었던 만큼 잘 정리해 보죠....!

Part 1. 딥러닝을 위한 통계

01-01 확률 개요

def) 확률: 특정한 사건이 일어날 가능성을 수로 표현한 것

절대 일어나지 않을 경우 0, 반드시 일어날 경우 1
즉, 0 ≤ p ≤1입니다.

- 기계학습 모델을 확률적으로 이해하기

이를 기계학습(머신러닝, ML) 모델에 적용해 보면 이렇게 정리할 수 있습니다. N개의 학습 데이터로 모델을 학습시킨다고 가정하면, 일반적으로 ML 모델의 출력은 "확률"의 형태로 표현됩니다.

예를 들어, 어떤 이미지가 개인지 고양이인지 구분하는 분류 모델이 미지의 입력 이미지에 대해서 75% 확률로 고양이일 것이라고 예측하는 겁니다.

- 경우의 수

다양한 문제 상황에서 확률을 계산해 보려면 주어진 데이터들을 조합해서 어떤 케이스들이 나오는지에 대한 모든 개수를 파악할 필요가 있습니다.

수학 시간에 우리를 가혹하게도 괴롭혔던

경우의 수를 도입할 필요가 있습니다. 각 케이스의 정의는 아래와 같습니다.

순열(permutation)을 예로 들어보죠. ML 모델을 위해 N개의 학습 데이터로 학습을 진행하려고 합니다. 이때 여러 번 반복해서 학습하는 횟수를 에포크(epoch)라고 하는데, 매 에포크마다 학습 데이터의 순서를 섞어서 학습을 진행하는 것이 일반적입니다. 보통의 경우 학습(또는 훈련)에 사용할 데이터를 전부 사용하면 N!로 나타내는 것과 동일합니다. 혹은 n개의 데이터 중 r개만 뽑아서 훈련할 경우 nPr이 되겠습니다.

같은 방법으로 조합(combination)을 예로 들어보겠습니다.
딥러닝에서 잘 알려진 모델 중 샴 네트워크(Siamese network)는 이미지 2개를 입력으로 받아, 두 이미지가 유사하면 1을, 다르다면 0을 출력하는 모델입니다. 만약 N개의 이미지로 구성된 데이터셋이 있다고 하면 매번 N개의 데이터 중 2개를 고르는 것이므로 조합의 예에 부합합니다.

중복순열(permuation with repetition, n∏r)과 중복조합(combination with repetition, nHr) 역시 일부 ML 기법에서 사용되지만 일단은 써먹을 수 있다는 것만 알고 넘어갑시다.

파이썬에서 계산할 경우 라이브러리 중 itertools의 permuations, combinations, product, combinations_with_replacement 메서드를 유용하게 써먹을 수 있습니다.

from itertools import permutations, combinations, product, combinations_with_replacement

중복조합만 메서드 이름이 쓸데없이 깁니다. 순열에 대해서 파이썬으로 재현해 보면 아래와 같이 출력됩니다.

코드 적용 예시(순열만)

- 확률

def) 표본 공간(Sample space): 전체 사건의 집합

사건 X가 일어날 확률 P(X)는 따라서

P(X) = n(X)/n(S)

로 나타납니다.

 

이를 통계적 확률과 잘 구분해야 합니다. 이론상 주사위를 던졌을 때 1의 눈이 나올 확률은 1/6이고, 동전을 던졌을 때 앞면이 나올 확률은 1/2입니다. 그런데 이때 주사위를 6번 던졌을 때, 반드시 1의 눈이 나온다고 장담할 수 있을까요? 마찬가지로 동전을 2번 던졌을 때 두 번 다 뒷면이 나올 수도 있습니다. 시행 횟수가 적기 때문이죠.

하지만 통계학에서 말하는 '큰 수의 법칙'에 따르면 시행 횟수가 많아질수록 그 확률은 이론상의 확률과 비슷해집니다. 좀 더 엄밀히 말하자면 시행 횟수 N을 무한히 크게 했을 때, R/N이 수렴하는 값을 사건 X의 통계적 확률이라고 말합니다.

 

- 1일 차 후기

배우는 것과 정리하는 것은 역시 별개의 문제라는 것을 느꼈습니다.... 마크다운이나 html 문법을 더 익히면 좀 더 깔끔하고 정돈된 블로그가 될 수 있기를 바라며 의지를 다져보지만, 한편으로는 배워야 할 게 또 늘었다는 사실에 다시 머리가 복잡해집니다.

삭제해라 애송이

중요한 것은 꺾이지 않는 마음이랬어!!

 

http://bit.ly/3Y34pE0

 

패스트캠퍼스 [직장인 실무교육]

프로그래밍, 영상편집, UX/UI, 마케팅, 데이터 분석, 엑셀강의, The RED, 국비지원, 기업교육, 서비스 제공.

fastcampus.co.kr

* 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.