패캠챌린지 40

[패스트캠퍼스][환급 챌린지]Chapter 1. 딥러닝을 위한 통계 01-10 평균과 기대값

01-10 평균과 기대값 통계라고 하면 가장 먼저 떠오르는 지표는 평균이 아닐까 합니다. 그만큼 가장 직관적이고 간단한 방법이라는 뜻이겠죠. 이번 포스트에서는 평균 그리고 이와 함께 쓰이는 대표적인 몇몇 지표들을 함께 정리해보겠습니다. 평균 평균(Mean)에는 산술 평균, 기하 평균, 조화 평균 등 여러 종류가 있지만 여기서는 가장 널리 쓰이는 산술 평균을 위주로 설명해보겠습니다. def) 산술 평균(Arithmetic Mean): 모든 변수의 합을 그 개수만큼 나눠서 얻을 수 있는 대표값 $$A.M.=\frac{1}{n}\sum_{i}^{n}a_i=\frac{a_1+a_2+\cdots + a_n}{n}$$ 가장 널리 쓰이고 가장 먼저 배우는 평균입니다. 위의 정의는 이산확률변수에 대해서 정리한 것이기 ..

[패스트캠퍼스][환급 챌린지]Chapter 1. 딥러닝을 위한 통계 01-09 베이즈 정리

01-09 베이즈 정리 개념을 정리하기에 앞서 간단한 예제 상황부터 짚고 넘어가겠습니다. 주어진 텍스트가 스팸 메일일 확률을 계산하는 ML 모델을 짠다고 해봅시다. 이 때, 텍스트의 확률변수를 $X$, 클래스의 확률변수를 $Y$라고 해보겠습니다. $y_1$이 정상 메일, $y_2$가 스팸 메일에 해당합니다. 예를 들어, 입력 텍스트에 "특가"라는 텍스트가 포함되었을 경우 스팸일 확률 $P\left(y_2\mid X=x\right)=0.95$와 같이 나왔습니다. 이 소프트웨어로 지금까지 받은 메일을 확인했더니, 70%(0.7)은 스팸 메일이고, 나머지 30%(0.3)은 정상 메일이었습니다. 스팸 메일의 90%에는 "대출"이라는 단어가 포함되어 있고, 정상 메일의 3%는 "대출"이라는 단어를 포함했습니다. ..

[패스트캠퍼스][환급 챌린지]Chapter 1. 딥러닝을 위한 통계 01-08 조건부확률

01-08 조건부확률 def) 조건부확률(Conditional probability): 어떤 사건이 일어나는 경우 다른 사건이 일어날 확률 어떤 사건의 경우의 수나 확률을 계산하다 보면 그 사건만 단독으로 일어나지 않고 다른 사건이 함께 일어날 수도 있습니다. 아니, 오히려 그런 경우가 더 적지 않은가? 혹은 특정한 사건이 일어나야만 발생할 수 있는 다른 사건들도 있겠죠. 가챠 해금 이런 경우에 계산되는 확률을 조건부확률이라 합니다. 수학적인 정의는 아래와 같습니다. $$P_{Y\mid X}\left(Y=y\mid X=x\right)=\frac{P_{XY}\left(x, y\right)}{P_X\left(x\right)}$$ 특정한 사건이 발생하는 것을 선행 전제로 삼기 때문에 전체 경우의 수 중 $X=..

[패스트캠퍼스][환급 챌린지]Chapter 1. 딥러닝을 위한 통계 01-07 결합확률과 주변확률

01-07 결합확률과 주변확률 독립 def) 독립(Independent): 두 변수가 서로 영향을 주지 않음을 의미 지난 포스트에서 독립변수가 다른 변수에 영향을 받지 않는 (사람이 바꿀 수 있는) 변수라고 설명했었죠? 이 설명을 거꾸로 말하면 서로 다른 변수가 서로에게 영향을 주지 않는다면 그 변수들은 서로 독립이라고 합니다. 실생활에서 독립의 여러 예시를 볼 수 있습니다. 예를 들어서, A와 B라는 두 사람이 가위바위보를 해서 A가 세 번을 내리 졌다고 해봅시다.(두 사람이 가위, 바위, 보 중에서 각각 뭘 냈는지는 고려하지 않습니다.) 보통 이쯤되면 사람 머릿속에서는 희망회로가 가열차게 돌아가기 시작합니다. A 입장에서는 '4연패는 안 된다! 이번에는 최소한 비기기라도 하겠지!'라면서 패배할 경우를..

[패스트캠퍼스][환급 챌린지]Chapter 1. 딥러닝을 위한 통계 01-06 독립변수와 종속변수

01-06 독립변수와 종속변수 오늘은 비단 통계뿐만 아니라 수학(좀 더 정확히는 해석학?)의 다양한 하위 분야에서 두루 사용되는 개념을 다루겠습니다. 여러 변수들 간에 서로 어떤 영향을 주고 받는지와 관련한 내용입니다. def) 독립변수(Independent Variable): 다른 변수에 의한 영향을 받지 않는 변수 종속변수(Dependent Variable): (독립)변수에 의한 영향을 받는 변수 독립변수는 사람이 원하는 대로 변하게 할 수 있는 변수입니다. 이러한 독립변수로부터 영향을 받아 종속변수의 값이 변화하게 됩니다. 흔히들 함수를 처음 배울 때 이와 관련된 개념을 처음 접하실 겁니다. $x$는 독립변수고, 이 $x$가 변할 때마다 변화하는 $y$가 종속변수다 등의 표현으로 말이죠. 사실 이름..

[패스트캠퍼스][환급 챌린지]Chapter 1. 딥러닝을 위한 통계 01-05 표준정규분포

01-05 표준정규분포 def) 표준정규분포(Standard Normal Distribution): 평균이 0이고 분산이 1인 표준화된 정규분포 지난 포스트에서 실생활의 데이터는 많이들 정규분포로 근사한다고 배웠습니다. 이러한 정규분포들을 획일적으로 비교하기 위해, 평균이 0, 분산이 1이 되게끔 데이터의 스케일을 조정하고는 합니다. 이 과정을 표준화(standardization)라고 하며, 이렇게 표준화된 정규분포를 표준정규분포라고 합니다. import numpy as np import matplotlib.pyplot as plt from scipy.stats import norm np.random.seed(123) mu = 0 sigma = 1 x = np.linspace(-5, 5, 1000) pl..

[패스트캠퍼스][환급 챌린지]Chapter 1. 딥러닝을 위한 통계 01-04 연속확률분포

01-04 연속확률분포 def) 연속확률분포(Continuous Probability Distribution): 확률변수 $X$가 취할 수 있는 값이 무한한, 즉 셀 수 없을 경우의 확률변수에 대한 확률분포 이산확률분포와 함께 연속확률분포도 정리해보겠습니다. 이산확률분포가 셀 수 있는 확률변수에 대한 분포를 나타냈다면, 연속확률분포는 무수히 많아서 셀 수 없는 확률변수에 대한 기법입니다. 대표적인 예로 이번 장에서 가장 중요하다고도 볼 수 있는 정규분포가 있습니다. 다시 말하면, 특정한 값 $x$에 대한 확률 값을 표현할 수 없기 때문에, 일반적으로 어떤 구간 $a\ge x\ge b$에 대한 확률을 나타냅니다. 확률밀도함수 def) 확률밀도함수(Probability Density Function, PDF..

[패스트캠퍼스][환급챌린지] Chapter 1. 딥러닝을 위한 통계 01-03 이산확률분포

들어가기 전에... 오늘 글을 쓰고 나서야 첫번째 글 제목에 Part, Chapter를 거꾸로 썼다는 걸 알았습니다... 게다가 글 제목에 걸려있는 01-03은 오늘 정리해서 올립니다... 아... 신경쓰이게....;; 01-03 이산확률분포 앞선 장에서 간단하게 이산확률분포와 연속확률분포가 어떤 개념인지만 짚고 넘어갔습니다. 확률변수 $X$를 셀 수 있으면 이산확률분포, 무한히 많아서 셀 수 없으면 연속확률분포로 볼 수 있다고 했습니다. 먼저 이산확률분포에 관련된 개념부터 정리하겠습니다. 이산확률분포와 확률질량함수 def) 이산확률분포(Discrete Probability Distribution): 이산확률변수의 확률 분포 확률질량함수(Probability Mass Function, PMF): 이산확률..

[패스트캠퍼스][환급 챌린지]Chapter 1. 딥러닝을 위한 통계 01-02 확률변수와 확률분포

01-02 확률변수와 확률분포 한참 수능 수학에 갈려나가던 고3 시절, 확.통 파트는 저의 아킬레스건이나 마찬가지였습니다. 그 첫 발목을 잡은 대상이 바로 오늘 이야기할 이 친구들. 확률 변수와 확률 분포였습니다. 지금이야 학부도 졸업하고 확률 통계 수업도 들은 데다가 머신러닝을 접하면서 통계적 지식이 많이 쓰이다 보니 자연스럽게 친숙해졌지만, 그 당시 제 머릿속에서 확률 계산은 왜 주사위를 고따위로 몇 번씩 굴리는지 이해할 수 없는 파트에 불과했습죠. 문제는 이 부분을 이해하지 못하니 뒷부분에서 통계 이야기를 할 때도 이해할 리 만무했다는 겁니다. 그리고 이는 달리 말하면 이 부분을 이해하면 혈이 뚫리듯이 이해의 폭이 확장될 수 있다는 것이 아닐까 생각됩니다. 천만다행히도 학부와 대학원 코스웍에서 너무..

[패스트캠퍼스][환급챌린지]Part 1. 딥러닝을 위한 통계: 01-01 확률 개요

환급챌린지 데일리 미션, 드디어 30일간의 미션 시작입니다. 그럼 제일 기초부터 들어갑니다. 머신러닝과 딥러닝에서 가장 중요하고 유용한 개념인 확률과 통계부터 짚고 들어갑니다. 솔직한 심정으로, 고3 때 확.통을 제일 기피했던 저로서는 머신러닝 공부를 시작하면서 그때 좀 더 공부해둘걸 싶은 때가 한두 번이 아니었습니다... 반대로 공부하면서 가장 도움이 되기도 한 게 확통이었던 만큼 잘 정리해 보죠....! Part 1. 딥러닝을 위한 통계 01-01 확률 개요 def) 확률: 특정한 사건이 일어날 가능성을 수로 표현한 것 절대 일어나지 않을 경우 0, 반드시 일어날 경우 1 즉, 0 ≤ p ≤1입니다. - 기계학습 모델을 확률적으로 이해하기 이를 기계학습(머신러닝, ML) 모델에 적용해 보면 이렇게 정..