수학·통계학/기초통계학

[기초통계학] 1. 확률과 통계학의 이해

ITISIK 2020. 11. 22. 23:54
반응형

다음 내용 공부하기 >>

 

 

 

 

 

  통계학을 전공으로 하지 않은 사람이라고 할지라도 통계를 외면하고 살아갈 수는 없다. 가장 좋은 예로 우리가 매일같이 확인하는 일기예보에서도 "내일 오전에 비가 올 확률을 30%이고, 오후에 비가 올 확률은 60%입니다."와 같이 확률을 활용한다.

 

  통계 전공이 아니라고 할지라도 본인의 전공 분야에 관한 연구를 수행하고 이를 논문 등으로 타인에게 전달할 때 통계학은 필수적으로 필요한 분야라고 할 수 있다.

 

  설령 평범하게 살아간다고 하더라도 우리는 항상 불확실성 속에서 살아가고 하루에 10가지도 넘는 선택을 하며 살아간다. 이러한 선택에 있어서 가능한 합리적이고 유리한 결정을 내릴 수 있도록 도움을 줄 수 있는 것이 바로 통계학이다.

 

  그리고 요즘(이라기엔 뜬지 꽤 된) 뜨는 인공지능, 머신러닝 등을 공부함에 있어서도 가장 필수라고 할 수 있는 것이 바로 통계학(+수학)이다. 이러 이유로 우리는 통계학을 공부해야 한다.

 


 

 

 

  기술통계학(Descriptive statistics)은 자료들을 수치값으로 요약한 대표값(평균, 중앙값, 최빈값 등)이나 산포도(분산, 표준편차, 사분편차 등)와 변동의 크기 등을 구하여 나타내는 것을 의미한다.

 

  추측통계학(Inference statistics)은 통계적 모형과 구간을 설정하여 추측하며 가설을 세우고 여러 가설 중 어떤 가설에 가까운지를 합리적이고 과학적으로 추정하고 검정하여, 변수간의 관계를 결정하고 예측함으로써 표본으로부터 모집단을 일반화하는 것을 의미한다.

 

  현대 통계학은 추측 통계학이 핵심이라고 할 수 있다.

 

  여기서 몇 가지 용어를 알고 넘어갈 필요가 있다.

  - 변수(Variable) : 변하는 값을 가질 수 있는 특성이나 속성(eg. 이름, 키, 몸무게, IQ 등...)

  - 자료(Data) : 변수들이 (측정 또는 관측을 통해) 취할 수 있는 특정 값(eg. ITISIK, 174.21, 64.3, 120 등...)

  - 확률변수(Random variable) : 취하는 값(자료)이 우연에 의하여 결정되는 변수를 의미

  - 모집단(Population) : 관심이 있는 대상(개체) 전체

  - 모수(Parameter) : 모집단의 특성(대푯값/산포도)을 수치로 나타낸 것

  - 표본(Sample) : 모집단에서 추출된 개체들의 그룹

  - 통계량(Statistics) : 표본의 특성(대푯값/산포도)을 수치로 나타낸 것

  - 가설검정(Hypothesis testing) : 표본으로부터 얻은 정보를 이용하여, 모집단에 관한 주장의 타당성을 평가하는 것


 

 

  변수는 크게 양적변수와 질적변수 두 가지로 나뉜다. 양적변수는 수치를 가진 변수로, 순서(순위)를 부여할 수 있다. 양적변수의 예로는 온도, 몸무게, 키, 체온, 나이 등을 들 수 있다.

 

  이러한 양적변수연속현 변수이산형 변수로 나눌 수 있는데, 사람 수, 심장박동수 와 같이 특정한 숫자(3, 80 등)로 딱딱 떨어지는 것이 이산형 변수이며, 키, 몸무게와 같이 구간(170이상 175미만)에 해당하면 무슨 값이든 가질 수 있는 것이 연속형 변수이다.

 

  질적변수는 어떤 특성이나 속성에 따라 명확하게 분류할 수 있는 것을 의미한다. 질적변수의 예로는 종교, 성별, 학점(A+, A0, B+...) 등을 들 수 있다.

 

 

 

 

  이러한 양적변수와 질적변수는 어떻게 범주화 되는지, 세어지는지, 측정되는지에 따라 다시 분류할 수도 있다. 이를 측정 척도라고 하는데, 측정 척도에는 명목척도, 순서척도, 구간척도, 비율척도 4가지가 있다.

 

 

 

 

  우선 명목수준이란 자료의 순서를 부여할 수 없으면서 서로 동시에 일어날 수 없으며, 모두 모으면 전체를 나타내는 어떤 범주를 나타낸다. 가장 쉬운 예로 종교가 있다. 이 세상에 있는 모든 사람은 기독교이거나 천주교이거나 불교이거나 기타종교이거나 무교라는 사실에 부정하는 사람은 없을 것이다. 이와 같이 분류 사이에 겹치는 일(천주교의 일부가 불교라든가 하는 것)이 일어나지도 않고, 모두 모으면 전체를 아우르는 것을 명목수준이라고 한다. 다른 예로는 성별, 연령대, 학력 등이 있다. 이런 명목수준 척도의 가장 큰 특징은 서로간의 우열을 가릴 수 없다는 점이다.

 

  순서수준이란 명목수준에서 순서를 부과할 수 있는 것이다. 가장 쉬운 예로 학점이 있다. A+, A0, B+, B0와 같이 나타나는 학점은 명목수준의 조건을 충족하면서도 순서대로 나열할 수 있다는 특징이 있다. 또는 초고도비만, 고도비만, 비만, 보통, 저체중, 초저체중과 같은 비만도도 하나의 순서수준이 된다. 그러나 이런 순서 사이에는 명확한 차이가 존재하지 않는다. 예를들어 "A+학점이 A0 학점보다 얼마(0.5학점)만큼 공부를 더 잘한다."고 말하기는 어려운 것과 같다. 왜냐하면 이들 순서는 어느정도 조건을 충족하면 동일한 순위에 들 수 있기 때문이다.

 

  구간수준이란 순서수준에서 구간간에 명확한 단위 차이가 나는 것이다. 가장 쉬운 예로 온도, IQ 등이 있다. 60℃는 20℃보다 40℃ 높다. 와 같이 그 차이가 명확하다. 이와같은 구간수준에는 절대원점(0)이 존재하지 않는데, 이는 0℃라고 해서 "온도가 존재하지 않는다"와 같은 표현을 하기는 어려운 점을 생각하면 이해가 쉽다.

 

  비율수준이란, 구간수준에서 절대원점(0)을 가지고 있는 것이다. 가장 쉬운 예로는 무게가 있다. 0kg 이라는 의미는 무게가 존재하지 않는다는 의미이다. 그리고 20kg을 드는 사람과 10kg을 드는 사람 사이에는 힘의 차이가 2배 있다고 말할 수 있다.


 

 

  통계학을 활용하기 위해 가장 기본인 자료(데이터)를 수집하는 방법에는 몇 가지가 있는데, 지금부터는 그 자료수집방법에 대해서 공부할 것이다.

 

  우선 자료수집방법 중 "조사"에 대해서 공부할 것인데, 이 포스트에서 알아볼 조사방법은 총 세 가지이다.

 

1) 전화조사

  전화조사의 장점은 비용이 적게 들고, 넓은 범위의 사람들을 조사할 수 있으며, 얼굴을 마주하지 않기 때문에 좀 더 솔직한 응답이 가능하다는 점이 있다. 반면 단점으로는 조사자의 말투에 영향을 받을 수 있으며, 관심대상에 해당하는 인원 중에 전화기가 없거나, 있더라도 연결이 어려워 응답을 기록할 기회조차 얻지 못할 수 있다는 점이 있다. 최근에는 휴대전화의 보급률이 좋아 이런 전통적인 단점이 예전보다는 나아졌지만, 그래도 우리나라 정서상 이런 전화를 받으면 스팸으로 치부당해 무응답 비율이 압도적으로 높은 것이 약점이다.

 

2) 우편설문조사

  우편설문조사의 장점은 전화조사와 마찬가지로 비용이 적게들고 넓은 범위의 사람들을 조사할 수 있다는 점이다. 반면 단점으로는 응답율이 현저히 낮다는 점이며, 문항에 대한 이해가 충분하지 못할 경우 엉뚱한 답을 할 가능성이 열려있다는 점이다.

 

3) 면접조사

  면접조사의 장점은 앞선 두 가지 조사방법보다 더 세세한 조사가 가능하며, 문항을 이해하지 못할시 즉각적인 설명이 가능하다는 점이다. 반면 단점으로는 비용이 많이 들고, 넓은 범위의 사람들을 조사하기 힘들며 응답을 기록하는 조사자의 편견, 개인성향/견해 등이 개입할 여지가 가장 크다는 점이다.


  앞서서 모집단에서 추출된 개체들의 그룹을 표본이라고 정의했었는데, 모집단으로부터 표본을 추출하는 방법에는 많은 방법이 있다. 이 포스트에서 알아볼 (표본)추출방법은 총 네 가지이다.

 

1) 임의추출

  가장 단순한 방법이면서 가장 중요한 방법이다. 여기서 임의란, 인간의 주관이 개입되어서는 안되는 것을 의미한다. 즉, 객관적으로 마구잡이로 뽑는 것이 핵심인데 이를 위해서 난수표라는 것을 활용한다. 난수표란, 말 그대로 난해한 숫자들을 표로 나타낸 것이다. 현대에는 컴퓨터 혹은 프로그래밍에서 제공하는 난수 함수를 통해 생성된 마구잡이 숫자를 가지고 이와 같은 임의추출을 진행한다.

  추출방법 자체는 간단하다. 모집단에 해당하는 개체들에 일련번호를 작성하고, 생선된 난수와 일치하는 개체를 표본으로 선택하면 된다.  

 

2) 계통추출

  계통에 해당하는 영어가 Systematic임을 상기하며 공부하는 것이 좋다. 일반적으로 일정하게 공산품이 생산되는 공정에서의 퀄리티 체크나, 투표 후에 줄지어 나오는 유권자들을 대상으로 출구조사를 진행할 때 사용한다. 설명의 편의상 공장과 공산품을 예로 설명을 하겠다. 200개의 생산품 중에 3개의 샘플을 대상으로 상품의 질을 확인하려고 한다고 가정하면, 200 / 3 = 66.666...으로, 반내림하여 66개의 묶음이 나온다. 즉, 66개마다 1개씩 뽑으면 200개 중에서 3개를 추출할 수 있다는 의미이다. 예를들어 첫 샘플이 2(=k)번째 제품이었다면, 68번째 제품, 134번째 제품이 이어서 추출될 것이다.

  계통추출을 이용할 때 주의할 점은, k의 배수마다 특정 성질을 띄는 개체가 되지 않도록 해야한다는 점이다. 예를들어서 물레방아처럼 돌아가면서 작동하는 어떤 기계 설비의 기계팔이 10개라고 할 때, k의 값도 10 또는 그 배수가 된다면, 특정 기계팔에서 생산된 제품만이 계속해서 추출되어 편향된 표본이 되어 버린다. 가령, 8번째 기계팔이 고장났는데 k의 의 값도 8이어서, 계속해서 고장난 제품만 추출되는 상황을 생각하면 이해가 쉽다. 

 

3) 층화추출

  층화추출은 이후에 공부할 집락추출과 헷갈릴 여지가 있으니 그 차이점에 유의하며 공부해야한다. 층화추출이란, 모집단을 관심의 대상이 되는 성질 기준으로 층을 나누어 각 층으로 부터 추출하는 것이다. 예를들어 K 고등학교의 1, 2, 3학년 학생들을 대상으로 급식 만족도를 조사하고자 한다고 해보자. 앞서 배운 임의추출이나 계통추출을 이용하기엔 애매하다. 이럴때 K 고등학교 학생들을 층으로 구분한다. 1학년 층, 2학년 층, 3학년 층으로 구분하고 1학년 층에서 10%, 2학년 층에서 10%, 3학년 층에서 10%를 무작위 추출(임의추출)하여 표본을 구성하면 그 표본은 K 고등학교 학생들을 대표하기에 어느정도 타당성이 있다고 볼 수 있을 것이다. 이러한 방식이 층화추출이다.

  층화추출의 가장 큰 특징은 층(1학년, 2학년, ...)내부는 서로 동질적이며, 층간에는 서로 이질적이라는 점이다.

 

4) 집락추출

  집락추출은 앞서 공부한 층화추출과 헷갈릴 여지가 있다고 미리 경고했었다. 집락추출이란, 모집단을 대표할 수 있는 어떤 그룹들을 대상으로 그룹을 통채로 추출하는 방법이다. 예를 통해 이해하는 것이 쉽다. 서울특별시 강남구의 아파트에 살고 있는 사람을 대상으로 어떤 관심이 있다고 가정하자. 서울특별시 강남구에 있는 아파트가 총 192동이라고 한다면 그 중 20동만을 선택하여 해당 20동에 거주하는 모든 사람들을 대상으로 조사하는 방식이다.

  집락추출의 가장 큰 특징은 집락(군집)내부는 서로 이질적(다양한 사람들이 거주하고 있음)이며, 군집간에는 서로 동질적(이미 집락 자체로서 모집단과 닮아 있기 때문에)이라는 점이다.


 

 

  앞서서 조사방법 3가지, 추출방법 4가지에 대해서 공부했었다. 이제는 연구에 대해서 공부 해볼텐데 연구는 관찰연구와 실험연구 2가지에 대해서 알아보고자 한다.

 

1) 관찰연구

  관찰연구는 말 그대로 과거에 어떤 일이 일어났었고, 이후 어떤 일이 일어나는지를 관찰하여 두 결과를 비교하여 결론을 내는 연구법이다.

 

2) 실험연구

  연구자가 변수 가운데 하나를 조종하여 그 변수의 움직임이 다른 변수들에게 어떤 영향을 미치는지를 살펴보고 결론을 내는 연구법이다. 이러한 실험연구의 단점으로 호손효과가 있다. 호손효과란, 실험에 참여한 피실험자들이 자신이 실험에 참여하고 있다는 사실로 인지함에 따라 결과에 인위적인 영향을 주어 올바른 연구결과 도출을 방해하는 것을 의미한다. 비슷한 단점으로 변수의 중첩이 있다. 중첩변수란, 결과에 영향을 미치지만 특정 독립변수로부터 완전히 분리할 수 없는 변수를 의미한다. 예를들면 수능 성적이 좋은 학생은 내신 성적도 좋은 것이라든가, 매출이 좋은 상가 건물은 월세가 높은 것 등이 있다.

 

  이러한 통계적 연구는 보통 하나 이상의 독립변수와 하나 이상의 종속변수를 갖는다. 독립변수란, 연구자에 의해서 조종되는 변수이며 설명변수라고도 부른다. 종속변수란, 결과의 의미를 갖는 변수로 결과변수라고도 부른다.


 

 

  통계를 공부하고, 연구하고, 활용하면서 주의할 점을 몇 가지 모아보았다.

 

1) 엉뚱한 표본

"서울시민 1,000명을 대상으로 조사해 본 결과 월 700만원의 소득이 있는 것으로 밝혀졌다." 도곡동에 사는 1,000명을 조사한 것과, 신림동에 사는 1,000명을 조사한 것의 결과가 얼마나 차이날지 생각해보자. 적은 인원수를 조사하면 편향될 확률이 상당히 높지만, 단순히 많은 인원수를 조사했다고 해서 편향된 표본으로부터 자유로운 것은 아님을 알 수 있다.

 

2) 눈 가리고 아웅식 평균

"20대의 평균 자산이 8천만원입니다." 얼마나 많은이의 공감을 살 수 있을까?

평균은, 대푯값 중에 하나인데 평균 이외의 대푯값으로는 중앙값, 최빈값, 범위의 중앙 등이 있다.

 

3) 말장난

"성능이 2배 좋아진 휴대폰" : 비교대상이 결여된 표현방식

"100,000,000원 중에 2%|2,000,000원(이)가 증가했습니다." : 2가지 표현방식

"기능 개선에 도움을 줄 수 있음" : 도움 안 되면 말고식의 표현방식

 

4) 그래프 장난

 

 

마침 좋은 예가 있었다. 누적 확진자 수 그래프인데, 범위를 0명부터 10,000명으로 잡아두니, 하루에 100명 가까이 늘어나는 것이 크게 티나지 않는다. 만약 범위를 6,000명 ~ 8,000명으로 잡아두었더라면 확진자의 증가세가 엄청 크게 느껴질 수도 있을 것이다.

 

5) 질문지 작성에서의 말장난

"당신이 뇌사 등의 이유로 사망한 후에 장기가 기증되는 것을 희망하십니까?"

"당신이 뇌사 등의 이유로 사망한 후에는 장기가 필요한 환자들에게 기증됩니다. 원치 않으십니까?"

 

  핵심은 동일한 질문이지만 질문을 받는 사람으로 하여금 특정 답변을 유도한다고 생각할 수도 있다.

 

"평소 귀사의 회식문화에 대해 어떤 부정적인 생각을 가지고 계십니까?"

"평소 귀사의 회식문화에 대해 어떤 생각을 가지고 계십니까?"

"평소 귀사의 회식문화에 대해 어떤 긍정적인 생각을 가지고 계십니까?"

 

  아예 노골적으로 특정 답변을 유도하는 질문의 예이다.


 

 

 

 

 

다음 내용 공부하기 >>

반응형