[패스트캠퍼스][환급챌린지]Part 1. 딥러닝을 위한 통계: 01-01 확률 개요

[패스트캠퍼스 환급챌린지]딥러닝/Chapter 1. 통계

[패스트캠퍼스][환급챌린지]Part 1. 딥러닝을 위한 통계: 01-01 확률 개요

포리셔 2023. 2. 20. 23:56

환급챌린지 데일리 미션, 드디어 30일간의 미션 시작입니다.

그럼 제일 기초부터 들어갑니다. 머신러닝과 딥러닝에서 가장 중요하고 유용한 개념인 확률과 통계부터 짚고 들어갑니다. 솔직한 심정으로, 고3 때 확.통을 제일 기피했던 저로서는 머신러닝 공부를 시작하면서 그때 좀 더 공부해둘걸 싶은 때가 한두 번이 아니었습니다... 반대로 공부하면서 가장 도움이 되기도 한 게 확통이었던 만큼 잘 정리해 보죠....!

Part 1. 딥러닝을 위한 통계

01-01 확률 개요

def) 확률: 특정한 사건이 일어날 가능성을 수로 표현한 것

절대 일어나지 않을 경우 0, 반드시 일어날 경우 1
즉, 0 ≤ p ≤1입니다.

- 기계학습 모델을 확률적으로 이해하기

이를 기계학습(머신러닝, ML) 모델에 적용해 보면 이렇게 정리할 수 있습니다. N개의 학습 데이터로 모델을 학습시킨다고 가정하면, 일반적으로 ML 모델의 출력은 "확률"의 형태로 표현됩니다.

예를 들어, 어떤 이미지가 개인지 고양이인지 구분하는 분류 모델이 미지의 입력 이미지에 대해서 75% 확률로 고양이일 것이라고 예측하는 겁니다.

- 경우의 수

다양한 문제 상황에서 확률을 계산해 보려면 주어진 데이터들을 조합해서 어떤 케이스들이 나오는지에 대한 모든 개수를 파악할 필요가 있습니다.

~~수학 시간에 우리를 가혹하게도 괴롭혔던~~

경우의 수를 도입할 필요가 있습니다. 각 케이스의 정의는 아래와 같습니다.

순열(permutation)을 예로 들어보죠. ML 모델을 위해 N개의 학습 데이터로 학습을 진행하려고 합니다. 이때 여러 번 반복해서 학습하는 횟수를 에포크(epoch)라고 하는데, 매 에포크마다 학습 데이터의 순서를 섞어서 학습을 진행하는 것이 일반적입니다. 보통의 경우 학습(또는 훈련)에 사용할 데이터를 전부 사용하면 N!로 나타내는 것과 동일합니다. 혹은 n개의 데이터 중 r개만 뽑아서 훈련할 경우 nPr이 되겠습니다.

같은 방법으로 조합(combination)을 예로 들어보겠습니다.
딥러닝에서 잘 알려진 모델 중 샴 네트워크(Siamese network)는 이미지 2개를 입력으로 받아, 두 이미지가 유사하면 1을, 다르다면 0을 출력하는 모델입니다. 만약 N개의 이미지로 구성된 데이터셋이 있다고 하면 매번 N개의 데이터 중 2개를 고르는 것이므로 조합의 예에 부합합니다.

중복순열(permuation with repetition, n∏r)과 중복조합(combination with repetition, nHr) 역시 일부 ML 기법에서 사용되지만 일단은 써먹을 수 있다는 것만 알고 넘어갑시다.

파이썬에서 계산할 경우 라이브러리 중 itertools의 permuations, combinations, product, combinations_with_replacement 메서드를 유용하게 써먹을 수 있습니다.

from itertools import permutations, combinations, product, combinations_with_replacement

~~중복조합만 메서드 이름이 쓸데없이 깁니다.~~ 순열에 대해서 파이썬으로 재현해 보면 아래와 같이 출력됩니다.

- 확률

def) 표본 공간(Sample space): 전체 사건의 집합

사건 X가 일어날 확률 P(X)는 따라서

P(X) = n(X)/n(S)

로 나타납니다.

이를 통계적 확률과 잘 구분해야 합니다. 이론상 주사위를 던졌을 때 1의 눈이 나올 확률은 1/6이고, 동전을 던졌을 때 앞면이 나올 확률은 1/2입니다. 그런데 이때 주사위를 6번 던졌을 때, 반드시 1의 눈이 나온다고 장담할 수 있을까요? 마찬가지로 동전을 2번 던졌을 때 두 번 다 뒷면이 나올 수도 있습니다. 시행 횟수가 적기 때문이죠.

하지만 통계학에서 말하는 '큰 수의 법칙'에 따르면 시행 횟수가 많아질수록 그 확률은 이론상의 확률과 비슷해집니다. 좀 더 엄밀히 말하자면 시행 횟수 N을 무한히 크게 했을 때, R/N이 수렴하는 값을 사건 X의 통계적 확률이라고 말합니다.

- 1일 차 후기

배우는 것과 정리하는 것은 역시 별개의 문제라는 것을 느꼈습니다.... 마크다운이나 html 문법을 더 익히면 좀 더 깔끔하고 정돈된 블로그가 될 수 있기를 바라며 의지를 다져보지만, 한편으로는 배워야 할 게 또 늘었다는 사실에 다시 머리가 복잡해집니다.

~~삭제해라 애송이~~

~~중요한 것은 꺾이지 않는 마음이랬어!!~~

http://bit.ly/3Y34pE0

패스트캠퍼스 [직장인 실무교육]

프로그래밍, 영상편집, UX/UI, 마케팅, 데이터 분석, 엑셀강의, The RED, 국비지원, 기업교육, 서비스 제공.

fastcampus.co.kr

* 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성되었습니다.

'[패스트캠퍼스 환급챌린지]딥러닝 > Chapter 1. 통계' 카테고리의 다른 글

[패스트캠퍼스][환급 챌린지]Chapter 1. 딥러닝을 위한 통계 01-06 독립변수와 종속변수 (0)	2023.02.25
[패스트캠퍼스][환급 챌린지]Chapter 1. 딥러닝을 위한 통계 01-05 표준정규분포 (0)	2023.02.24
[패스트캠퍼스][환급 챌린지]Chapter 1. 딥러닝을 위한 통계 01-04 연속확률분포 (0)	2023.02.23
[패스트캠퍼스][환급챌린지] Chapter 1. 딥러닝을 위한 통계 01-03 이산확률분포 (1)	2023.02.22
[패스트캠퍼스][환급 챌린지]Chapter 1. 딥러닝을 위한 통계 01-02 확률변수와 확률분포 (0)	2023.02.21

현재글[패스트캠퍼스][환급챌린지]Part 1. 딥러닝을 위한 통계: 01-01 확률 개요

AI개발세발

데이터 분석/데이터 엔지니어를 지망하는 초보 개발자입니다!

패캠챌린지, 우분투, 드론, 데이터엔지니어링, 환급챌린지, 패스트캠퍼스후기, 부트캠프, SQL, 오공완, 데이터엔지니어, 패스트캠퍼스, 패캠인강후기, 직장인자기계발, 파이썬, 제어, 직장인인강, 플레이데이터, 딥러닝인공지능Signature초격차패키지Online, 수강료0원챌린지, ArduPilot,

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

AI개발세발