환급챌린지 데일리 미션, 드디어 30일간의 미션 시작입니다.
그럼 제일 기초부터 들어갑니다. 머신러닝과 딥러닝에서 가장 중요하고 유용한 개념인 확률과 통계부터 짚고 들어갑니다. 솔직한 심정으로, 고3 때 확.통을 제일 기피했던 저로서는 머신러닝 공부를 시작하면서 그때 좀 더 공부해둘걸 싶은 때가 한두 번이 아니었습니다... 반대로 공부하면서 가장 도움이 되기도 한 게 확통이었던 만큼 잘 정리해 보죠....!
Part 1. 딥러닝을 위한 통계
01-01 확률 개요
def) 확률: 특정한 사건이 일어날 가능성을 수로 표현한 것
절대 일어나지 않을 경우 0, 반드시 일어날 경우 1
즉, 0 ≤ p ≤1입니다.
- 기계학습 모델을 확률적으로 이해하기
이를 기계학습(머신러닝, ML) 모델에 적용해 보면 이렇게 정리할 수 있습니다. N개의 학습 데이터로 모델을 학습시킨다고 가정하면, 일반적으로 ML 모델의 출력은 "확률"의 형태로 표현됩니다.
예를 들어, 어떤 이미지가 개인지 고양이인지 구분하는 분류 모델이 미지의 입력 이미지에 대해서 75% 확률로 고양이일 것이라고 예측하는 겁니다.
- 경우의 수
다양한 문제 상황에서 확률을 계산해 보려면 주어진 데이터들을 조합해서 어떤 케이스들이 나오는지에 대한 모든 개수를 파악할 필요가 있습니다.
수학 시간에 우리를 가혹하게도 괴롭혔던
경우의 수를 도입할 필요가 있습니다. 각 케이스의 정의는 아래와 같습니다.
순열(permutation)을 예로 들어보죠. ML 모델을 위해 N개의 학습 데이터로 학습을 진행하려고 합니다. 이때 여러 번 반복해서 학습하는 횟수를 에포크(epoch)라고 하는데, 매 에포크마다 학습 데이터의 순서를 섞어서 학습을 진행하는 것이 일반적입니다. 보통의 경우 학습(또는 훈련)에 사용할 데이터를 전부 사용하면 N!로 나타내는 것과 동일합니다. 혹은 n개의 데이터 중 r개만 뽑아서 훈련할 경우 nPr이 되겠습니다.
같은 방법으로 조합(combination)을 예로 들어보겠습니다.
딥러닝에서 잘 알려진 모델 중 샴 네트워크(Siamese network)는 이미지 2개를 입력으로 받아, 두 이미지가 유사하면 1을, 다르다면 0을 출력하는 모델입니다. 만약 N개의 이미지로 구성된 데이터셋이 있다고 하면 매번 N개의 데이터 중 2개를 고르는 것이므로 조합의 예에 부합합니다.
중복순열(permuation with repetition, n∏r)과 중복조합(combination with repetition, nHr) 역시 일부 ML 기법에서 사용되지만 일단은 써먹을 수 있다는 것만 알고 넘어갑시다.
파이썬에서 계산할 경우 라이브러리 중 itertools의 permuations, combinations, product, combinations_with_replacement 메서드를 유용하게 써먹을 수 있습니다.
from itertools import permutations, combinations, product, combinations_with_replacement
중복조합만 메서드 이름이 쓸데없이 깁니다. 순열에 대해서 파이썬으로 재현해 보면 아래와 같이 출력됩니다.
- 확률
def) 표본 공간(Sample space): 전체 사건의 집합
사건 X가 일어날 확률 P(X)는 따라서
P(X) = n(X)/n(S)
로 나타납니다.
이를 통계적 확률과 잘 구분해야 합니다. 이론상 주사위를 던졌을 때 1의 눈이 나올 확률은 1/6이고, 동전을 던졌을 때 앞면이 나올 확률은 1/2입니다. 그런데 이때 주사위를 6번 던졌을 때, 반드시 1의 눈이 나온다고 장담할 수 있을까요? 마찬가지로 동전을 2번 던졌을 때 두 번 다 뒷면이 나올 수도 있습니다. 시행 횟수가 적기 때문이죠.
하지만 통계학에서 말하는 '큰 수의 법칙'에 따르면 시행 횟수가 많아질수록 그 확률은 이론상의 확률과 비슷해집니다. 좀 더 엄밀히 말하자면 시행 횟수 N을 무한히 크게 했을 때, R/N이 수렴하는 값을 사건 X의 통계적 확률이라고 말합니다.
- 1일 차 후기
배우는 것과 정리하는 것은 역시 별개의 문제라는 것을 느꼈습니다.... 마크다운이나 html 문법을 더 익히면 좀 더 깔끔하고 정돈된 블로그가 될 수 있기를 바라며 의지를 다져보지만, 한편으로는 배워야 할 게 또 늘었다는 사실에 다시 머리가 복잡해집니다.
삭제해라 애송이
중요한 것은 꺾이지 않는 마음이랬어!!
패스트캠퍼스 [직장인 실무교육]
프로그래밍, 영상편집, UX/UI, 마케팅, 데이터 분석, 엑셀강의, The RED, 국비지원, 기업교육, 서비스 제공.
fastcampus.co.kr
* 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.
'[패스트캠퍼스 환급챌린지]딥러닝 > Chapter 1. 통계' 카테고리의 다른 글
[패스트캠퍼스][환급 챌린지]Chapter 1. 딥러닝을 위한 통계 01-06 독립변수와 종속변수 (0) | 2023.02.25 |
---|---|
[패스트캠퍼스][환급 챌린지]Chapter 1. 딥러닝을 위한 통계 01-05 표준정규분포 (0) | 2023.02.24 |
[패스트캠퍼스][환급 챌린지]Chapter 1. 딥러닝을 위한 통계 01-04 연속확률분포 (0) | 2023.02.23 |
[패스트캠퍼스][환급챌린지] Chapter 1. 딥러닝을 위한 통계 01-03 이산확률분포 (1) | 2023.02.22 |
[패스트캠퍼스][환급 챌린지]Chapter 1. 딥러닝을 위한 통계 01-02 확률변수와 확률분포 (0) | 2023.02.21 |