오공완 42

[패스트캠퍼스][환급 챌린지]Chapter 1. 딥러닝을 위한 통계 01-12 공분산과 상관계수

01-12 공분산과 상관계수 분산이 어떤 데이터로부터 평균까지의 편차를 기반으로 한 데이터였다는 것을 지난 포스트에서 알아봤습니다. 이번에는 확률변수가 여러 개일 때로 상황을 바꿔서 데이터의 분포를 나타내보도록 하겠습니다. 공분산 def) 공분산 (Covariance): 다변수 데이터가 평균으로부터 얼마나 멀리 떨어져 있는지를 나타내는 척도 공분산 공식은 아래와 같이, 분산을 2차원으로 확장시킨 것과 같은 모습을 띕니다. $$s_{xy}=\frac{1}{N}\sum_{i=1}^N\left(x_i-\mu_x\right)\left(y_i-\mu_y\right)$$ 다만, 하나의 확률변수에 대해서는 평균값의 위치와 표본 위치의 거리로 나타낸 것과 다르게, 공분산은 평균값과 표본을 연결하는 사각형의 면적과 같습..

[패스트캠퍼스][환급 챌린지]Chapter 1. 딥러닝을 위한 통계 01-11 분산과 표준편차

01-11 분산과 표준편차 통계에서 평균이나 중앙값은 어떤 데이터를 대표하는 값이라 할 수 있습니다. 그런데 과연 평균 또는 중앙값만으로 그 데이터의 모든 것을 설명할 수 있을까요? 실제 데이터의 평균과 중앙값 못지 않게 중요한 요소는 데이터가 평균 또는 중앙값을 기준으로 얼마나 조밀하게 뭉쳐서 또는 넓게 퍼져서 분포해 있는지를 나타내는 것입니다. 분산 def) 분산 (Variance): 평균과 관측치에 대한 편차(difference) 제곱의 평균값 평균을 기준으로 데이터가 얼마나 넓게 퍼져있는지를 나타내는 지표인 분산은 평균 $\mu$가 주어졌을 때 아래와 같이 계산할 수 있습니다. $$Var=\frac{1}{N}\sum_{i=1}^{N}\left|x_i-\mu\right|^2$$ 공식을 보면 평균으로..

[패스트캠퍼스][환급 챌린지]Chapter 1. 딥러닝을 위한 통계 01-10 평균과 기대값

01-10 평균과 기대값 통계라고 하면 가장 먼저 떠오르는 지표는 평균이 아닐까 합니다. 그만큼 가장 직관적이고 간단한 방법이라는 뜻이겠죠. 이번 포스트에서는 평균 그리고 이와 함께 쓰이는 대표적인 몇몇 지표들을 함께 정리해보겠습니다. 평균 평균(Mean)에는 산술 평균, 기하 평균, 조화 평균 등 여러 종류가 있지만 여기서는 가장 널리 쓰이는 산술 평균을 위주로 설명해보겠습니다. def) 산술 평균(Arithmetic Mean): 모든 변수의 합을 그 개수만큼 나눠서 얻을 수 있는 대표값 $$A.M.=\frac{1}{n}\sum_{i}^{n}a_i=\frac{a_1+a_2+\cdots + a_n}{n}$$ 가장 널리 쓰이고 가장 먼저 배우는 평균입니다. 위의 정의는 이산확률변수에 대해서 정리한 것이기 ..

[패스트캠퍼스][환급 챌린지]Chapter 1. 딥러닝을 위한 통계 01-09 베이즈 정리

01-09 베이즈 정리 개념을 정리하기에 앞서 간단한 예제 상황부터 짚고 넘어가겠습니다. 주어진 텍스트가 스팸 메일일 확률을 계산하는 ML 모델을 짠다고 해봅시다. 이 때, 텍스트의 확률변수를 $X$, 클래스의 확률변수를 $Y$라고 해보겠습니다. $y_1$이 정상 메일, $y_2$가 스팸 메일에 해당합니다. 예를 들어, 입력 텍스트에 "특가"라는 텍스트가 포함되었을 경우 스팸일 확률 $P\left(y_2\mid X=x\right)=0.95$와 같이 나왔습니다. 이 소프트웨어로 지금까지 받은 메일을 확인했더니, 70%(0.7)은 스팸 메일이고, 나머지 30%(0.3)은 정상 메일이었습니다. 스팸 메일의 90%에는 "대출"이라는 단어가 포함되어 있고, 정상 메일의 3%는 "대출"이라는 단어를 포함했습니다. ..

[패스트캠퍼스][환급 챌린지]Chapter 1. 딥러닝을 위한 통계 01-08 조건부확률

01-08 조건부확률 def) 조건부확률(Conditional probability): 어떤 사건이 일어나는 경우 다른 사건이 일어날 확률 어떤 사건의 경우의 수나 확률을 계산하다 보면 그 사건만 단독으로 일어나지 않고 다른 사건이 함께 일어날 수도 있습니다. 아니, 오히려 그런 경우가 더 적지 않은가? 혹은 특정한 사건이 일어나야만 발생할 수 있는 다른 사건들도 있겠죠. 가챠 해금 이런 경우에 계산되는 확률을 조건부확률이라 합니다. 수학적인 정의는 아래와 같습니다. $$P_{Y\mid X}\left(Y=y\mid X=x\right)=\frac{P_{XY}\left(x, y\right)}{P_X\left(x\right)}$$ 특정한 사건이 발생하는 것을 선행 전제로 삼기 때문에 전체 경우의 수 중 $X=..

[패스트캠퍼스][환급 챌린지]Chapter 1. 딥러닝을 위한 통계 01-07 결합확률과 주변확률

01-07 결합확률과 주변확률 독립 def) 독립(Independent): 두 변수가 서로 영향을 주지 않음을 의미 지난 포스트에서 독립변수가 다른 변수에 영향을 받지 않는 (사람이 바꿀 수 있는) 변수라고 설명했었죠? 이 설명을 거꾸로 말하면 서로 다른 변수가 서로에게 영향을 주지 않는다면 그 변수들은 서로 독립이라고 합니다. 실생활에서 독립의 여러 예시를 볼 수 있습니다. 예를 들어서, A와 B라는 두 사람이 가위바위보를 해서 A가 세 번을 내리 졌다고 해봅시다.(두 사람이 가위, 바위, 보 중에서 각각 뭘 냈는지는 고려하지 않습니다.) 보통 이쯤되면 사람 머릿속에서는 희망회로가 가열차게 돌아가기 시작합니다. A 입장에서는 '4연패는 안 된다! 이번에는 최소한 비기기라도 하겠지!'라면서 패배할 경우를..

[패스트캠퍼스][환급 챌린지]Chapter 1. 딥러닝을 위한 통계 01-06 독립변수와 종속변수

01-06 독립변수와 종속변수 오늘은 비단 통계뿐만 아니라 수학(좀 더 정확히는 해석학?)의 다양한 하위 분야에서 두루 사용되는 개념을 다루겠습니다. 여러 변수들 간에 서로 어떤 영향을 주고 받는지와 관련한 내용입니다. def) 독립변수(Independent Variable): 다른 변수에 의한 영향을 받지 않는 변수 종속변수(Dependent Variable): (독립)변수에 의한 영향을 받는 변수 독립변수는 사람이 원하는 대로 변하게 할 수 있는 변수입니다. 이러한 독립변수로부터 영향을 받아 종속변수의 값이 변화하게 됩니다. 흔히들 함수를 처음 배울 때 이와 관련된 개념을 처음 접하실 겁니다. $x$는 독립변수고, 이 $x$가 변할 때마다 변화하는 $y$가 종속변수다 등의 표현으로 말이죠. 사실 이름..

[패스트캠퍼스][환급 챌린지]Chapter 1. 딥러닝을 위한 통계 01-05 표준정규분포

01-05 표준정규분포 def) 표준정규분포(Standard Normal Distribution): 평균이 0이고 분산이 1인 표준화된 정규분포 지난 포스트에서 실생활의 데이터는 많이들 정규분포로 근사한다고 배웠습니다. 이러한 정규분포들을 획일적으로 비교하기 위해, 평균이 0, 분산이 1이 되게끔 데이터의 스케일을 조정하고는 합니다. 이 과정을 표준화(standardization)라고 하며, 이렇게 표준화된 정규분포를 표준정규분포라고 합니다. import numpy as np import matplotlib.pyplot as plt from scipy.stats import norm np.random.seed(123) mu = 0 sigma = 1 x = np.linspace(-5, 5, 1000) pl..

[패스트캠퍼스][환급 챌린지]Chapter 1. 딥러닝을 위한 통계 01-04 연속확률분포

01-04 연속확률분포 def) 연속확률분포(Continuous Probability Distribution): 확률변수 $X$가 취할 수 있는 값이 무한한, 즉 셀 수 없을 경우의 확률변수에 대한 확률분포 이산확률분포와 함께 연속확률분포도 정리해보겠습니다. 이산확률분포가 셀 수 있는 확률변수에 대한 분포를 나타냈다면, 연속확률분포는 무수히 많아서 셀 수 없는 확률변수에 대한 기법입니다. 대표적인 예로 이번 장에서 가장 중요하다고도 볼 수 있는 정규분포가 있습니다. 다시 말하면, 특정한 값 $x$에 대한 확률 값을 표현할 수 없기 때문에, 일반적으로 어떤 구간 $a\ge x\ge b$에 대한 확률을 나타냅니다. 확률밀도함수 def) 확률밀도함수(Probability Density Function, PDF..

[패스트캠퍼스][환급챌린지] Chapter 1. 딥러닝을 위한 통계 01-03 이산확률분포

들어가기 전에... 오늘 글을 쓰고 나서야 첫번째 글 제목에 Part, Chapter를 거꾸로 썼다는 걸 알았습니다... 게다가 글 제목에 걸려있는 01-03은 오늘 정리해서 올립니다... 아... 신경쓰이게....;; 01-03 이산확률분포 앞선 장에서 간단하게 이산확률분포와 연속확률분포가 어떤 개념인지만 짚고 넘어갔습니다. 확률변수 $X$를 셀 수 있으면 이산확률분포, 무한히 많아서 셀 수 없으면 연속확률분포로 볼 수 있다고 했습니다. 먼저 이산확률분포에 관련된 개념부터 정리하겠습니다. 이산확률분포와 확률질량함수 def) 이산확률분포(Discrete Probability Distribution): 이산확률변수의 확률 분포 확률질량함수(Probability Mass Function, PMF): 이산확률..