기초 학문 내용

통계학 개관- 수리통계학을 중심으로

KORbank 2020. 6. 14. 20:45
반응형

 오늘은 통계학에 대해서 개관을 해보도록 하겠습니다. 통계학 역시 범위가 매우 넓은데요, 이 중에서 수리 통계학을 중심으로 다뤄보도록 하겠습니다. 먼저 통계학이란 무엇을 배우는 학문일까요? 결국 저는 통계학이란 현실세계에 대한 보다 유의미한 추정과 예측을 도와주는 학문이라고 생각합니다. 우리 사회의 자원(resource)은 무한하지 않기에 결국 제한된 시간과 인력 그리고 자원으로 많은 일들을 해야 할 필요가 있습니다. 통계학은 이러한 상황 속에서 수치적인 역량을 기반으로 인간의 상황 대응능력을 훨씬 높여주는 중요한 학문이라고 생각합니다. 그러면 이제 통계학에 대해서 본격적으로 살펴보도록 하겠습니다.

 

1. 확률과 확률변수

-통계학의 첫단원에서는 보통 '확률'을 배웁니다. 필자의 개인적인 견해로 이렇게 편제가 된 이유는 바로 통계학은 어디까지나 정확한 실제값을 바탕으로 진행하는 학문이 아니라 표본(Sample)에 근거한 수리적 계산에 기반하고 있고, 확률이라는 개념은 여기에서 필수적으로 사용되기 때문에 확률부터 배우기 시작하는 것 같습니다. 중요 개념으로는 베이즈 법칙 (Bayes' Rule)과 독립(Independent)이 있습니다. 그렇다면 확률변수란 무엇일까요? 확률변수(Random Variable) 역시 인간이 지극히 실용적인 목적에서 개발한 개념입니다. 통계학적 실험이나 예측을 할 때 '과정'도 물론 중요하지만 '결괏값'이 더 중요한 경우가 많습니다. 예를 들어, 사람들은 2개의 주사위를 던질 때 던진 주사위 2개의 결과의 '합'을 궁금해하지 각각의 값이 어떤 숫자면이 나와서 어떤 조합이 생겼는지를 궁금해하는 것이 아니라고 볼 수 있습니다. 확률변수는 이러한 상황에 착안하여 등장한 개념으로 이산 확률변수와 연속 확률변수로 나누어집니다. 이산 확률변수는 확률변수의 가능한 값들이 유한할 때 사용하는 개념입니다. 반면, 연속 확률변수는 확률변수의 값들이 무한하여 도저히 셀 수 없을 때 사용하는 개념이라고 보시면 됩니다. 또한, 추가적으로 연구자들이 확률변수의 '평균값'에 관심이 있는 경우가 있는데 이러한 상황에서 유용하게 쓰이는 적률(moment)이라는 개념을 배우기도 합니다. 그리고 이러한 적률을 생성할 수 있는 특별한 함수의 기댓값을 적률 생성 함수라고 합니다.

 

2. 이산분포

-그다음 주제들은 이산 분포와 연속 분포입니다. 우리는 '분포(Distribution)'라는 개념을 왜 배우는지 고민해볼 필요가 있습니다. 왜 우리는 분포를 배울까요? 바로 어떤 모집단의 분포를 알면 우리는 이에 기초해 평균값, 분산 값 등을 용이하게 구해낼 수 있고 이는 통계적 추정을 하는데 매우 큰 장점이 될 수 있기 때문입니다. 이제 왜 분포를 배우는지 알았으니 이산 분포에 대해서 알아보도록 합시다. 이산 분포는 다음과 같이 크게 나눌 수 있습니다. 베르누이 분포, 이항 분포, 기하 분포, 초기하 분포, 포아송 분포 등이 있습니다. 베르누이 분포는 결괏값에 2가지 종류만 있는 형태의 분포를 말합니다. 찬성과 반대, 여성과 남성 등 이렇게 결괏값이 두 가지 종류만 있는 경우 베르누이 분포로 풀어볼 수 있습니다. 다만, 베르누이 시행은 각 시도가 독립적이며 확률 값이 동일하다는 대전제를 유지합니다. 이항 분포는 베르누이 시행을 n번 반복한 경우의 분포를 말합니다. 초기하 분포는 비복원추출을 전제로 하는 이산확률분포입니다. 기하분포는 성공할 확률이 p인 일련의 독립 베르누이 시행이 있는 경우, 처음 성공할 때까지 필요한 시행 횟수의 값을 다루는 이산 분포입니다. 마지막으로 포아송 분포는 필자가 개인적으로 가장 좋아하면서도 흥미롭게 생각하는 분포중 하나입니다. 포아송분포는 일정 단위 시간 하에서 특정한 사건이 얼마나 발생활 지를 예측하는 분포입니다. 

 

3. 연속 분포

-연속 분포는 연속확률변수에 기반한 분포라고 볼 수 있습니다. 연속분포에는 균일분포, 감마분포, 정규분포등이 있습니다. 연속분포는 특정 구간에서 일정한 상수값을 갖는 분포입니다. 감마 분포는 조금 어렵고 생소할 수 있습니다. 감마분포는 특정 사건이 X번만큼 발생할 때까지 소요되는 시간의 확률분포입니다. 보다 분포의 개념과 관련지어 설명해보자면, 어떤 누군가가 한 달 동안 비가 3번 내릴 때까지 소요되는 일수의 분포에 대해서 궁금하다면 감마 분포를 활용해서 추정해볼 수 있습니다. 마지막으로 우리 일상생활에서 가장 많이 사용되는 정규분포가 있습니다. 정규분포는 우리 일상생활에서 가장 흔히 나타나는 대표적인 분포라 하여 '정규'라는 수식어가 붙은 것으로 생각됩니다. 그만큼 사용 가능한 경우가 많다는 의미이니 실생활에 엄청 유용한 분포라 할 수 있겠죠?

 

4. 확률변수들의 함수

-확률변수들의 함수에 대해 필자가 직관적 설명을 해보겠습니다. 우리는 앞서 개별적인 확률변수들에 대해서는 다뤄보았습니다. 하나의 모집단에서 생성되는 개별적인 확률분포들이었습니다. 그러나 때로는 두 개의 상이한 확률변수들의 합 등이 궁금한 경우가 있습니다. 하지만 일반적인 상수의 합과 달리 각각의 확률변수들은 별개의 분포를 따르는 유동적인 값들이므로 확률변수를 합할 때는 보다 복잡한 과정을 거칠 필요가 있습니다. 그러한 과정들이 곧 결합 변환, 적률 생성 함수 법 등이라고 할 수 있습니다. 또한, 해당 파트에서는 '순서 통계량'의 개념도 다루게 됩니다. 순서 통계량이란 직관적으로 설명을 해보자면, 어떠한 분포에서 '최솟값' 또는 '최댓값'이 특정 X값일 확률은? 과 같은 질문들을 다루게 됩니다. 즉, 이를 다시 정리해보자면 'X값이 어떠한 시도의 최솟값으로 잡힐 확률은?'과 같은 질문들을 해결해주는 것이 바로 순서 통계량의 용도입니다. 

 

5. 점추 정과 구간 추정

-이번에는 추정(Estimation)에 대해서 알아보도록 하겠습니다. 추정에는 크게 점추 정 (point estimation)과 구간 추정 (Interval Estimation)이 있습니다. 이들 개념의 기초가 되는 추정의 메커니즘에 대해서 간략히 설명해보도록 하겠습니다. 우리는 각자만의 어떠한 이유로 인해 어떠한 분포의 '모수 값' 또는 '모수 값의 함수'를 알고 싶어 합니다. 하지만 모수(parameter)를 정확히 알려면 모집단 전체에 대한 분석이 요구되는데 이는 현실적으로 불가능합니다. 따라서 차선으로 우리는 모수를 가장 잘 예측 또는 추정하는 값(Value)을 찾게 되는데 이를 바로 '추정량'이라고 합니다. 그렇다면 점추 정은 무엇일까요? 점추정은 우리가 표본(Sample)을 수집해서 관측자료를 모았을 때, 이를 바탕으로 우리가 설정한 추정량(estimator)추정 값(estimate)을 구한 이후 이를 모수(parameter)로 추정하는 일련의 과정을 의미합니다. 그렇다면 여기서 또다시 궁금증이 생기게 됩니다. 모수를 추정하는 틀이 되는 '추정량(estimator)'은 어떻게 구하는 것일까요? 이를 판단하는 기준으로 여러 가지가 있습니다. 대표적으로, 비 편향성 , 평균 제곱 오차 (mean squared error; MSE) 등이 있습니다. 그다음, 구간 추정 (Interval Estimation)에 대해서 알아보도록 하겠습니다. 구간 추정이란 점추 정과 달리 단순히 하나의 값으로 추정하지 않고 모수의 참값이 어떠한 특정 구간에 포함될 것이라고 주장하는 변이의 정도를 함께 제시한 추정을 말합니다. 쉽게 말해서, 95%의 신뢰구간에 대해서 논한다고 가정합시다. 추정 값과 신뢰구간의 관계를 이야기할 때 특정 추정 값이 모수일 확률이 95%라고 알 수는 없습니다. 다만, 100번 중 95번을 실험할 때 95번은 모수 값에 대한 분포의 특정 편차 이내에 포함된다는 것만 알 수 있습니다.

 

6. 가설검정

-가설검정은 통계학에서 가장 중요한 단원중 하나입니다. 먼저 가설(Hypothesis)이란 무엇일까요? 통계학 분야에서 가설의 의미란 모르고 있는 모집단의 모수에 관한 주장입니다. 귀무가설과 대립 가설도 알아야 합니다. 귀무가설(Null Hypothesis)이란 쉽게 말해서 기존에 수용되고 있던 주장이고, 대립 가설은 새롭게 도전하고 있는 주장이라고 보시면 됩니다. 그렇다면 가설검정의 기초적인 원리와 작동방식에 대해서 설명해보도록 하겠습니다. 가설검정은 이렇게 진행됩니다. 먼저 귀무가설 하에서  기존 주장이 참이라면, 특정한 추정 값이 나타날 확률 또는 범위를 알 수 있습니다. 더 쉽게 표현하자면, 통상적이고 정상적인 상황에서 나타나야할 추정값의 범위를 구할 수 있습니다. 그러나 실험자가 추출한 표본을 바탕으로 나온 추정값이 이러한 예측 범위를 벗어난다면 어떻게 해야 할까요? 이렇게 될 확률이 1%도 안되는데 실제로 일어났다면 어떻게 될까요? 여기에 대해서는 기존 가설이 잘못되었다는 합리적 의심이 제기될 수밖에 없습니다. 이를 바탕으로 귀무가설을 기각할 수 있는 것입니다. 또한, 부수적으로 이러한 과정에서 일어날 수 있는 통계학적 오류인 제1종 오류, 제2종 오류의 개념도 알아두실 필요가 있습니다. 제1종 오류란 귀무가설이 참임에도 불구하고 귀무가설을 기각하는 경우를 말하고, 제2종 오류란 귀무가설이 거짓임에도 귀무가설을 수용하는 경우를 말합니다. 

 

반응형