수학·통계학/ISLR

ISLR 1장 Introduction(소개) - 작성중

ITISIK 2021. 5. 5. 23:23
반응형

1.1 통계학습의 개요 및 다룰 자료 소개

 

  통계학습(Statistical learning)이란, 데이터를 이해하기 위한 방대한 도구 모음이다. 이런 도구들은 지도학습(supervised)과 비지도학습(unsupervised)으로 분류할 수 있다. '지도학습'은 하나 이상의 입력변수들(inputs)을 기반으로 출력변수(output)를 예측하거나 추정하는 통계적 모델을 만드는 것이며, 이런 유형의 문제는 비즈니스, 의학, 전체물리학 그리고 공공정책 등 다양한 분야에서 발생한다. '비지도학습'은 명확한 출력변수 없이 입력변수들만으로 데이터의 상관관계나 구조를 파악하는 것이다.

 

  이 책에서 통계학습을 배우기 위해 사용할 3가지 실제 세상의 데이터 셋에 대해서 알아보자.

 

1) Wage Data(임금 데이터)

FIGURE 1.1

  위 데이터는 앞으로 책에서 임금 데이터 셋(Wage Data set)이라고 부를 것이다.(그 정도로 자주 언급될 거라는 의미로 해석된다.) 이 데이터를 통해서 미국 대서양 지역에 살고 있는 어떤 남성들에 대한 임금(Wage)과 관련된 몇 가지 요소들의 관계를 알아보려고 한다. 그 요소 중 특히, 근로자의 나이(age), 학력(education), 임금을 받은 연도(year) 사이의 관계를 알아보려고 한다.

 

  예를들면, FIGURE 1.1의 왼쪽 그래프를 보자. 이 그래프는 개개인의 나이별 임금을 나타내고 있다. 나이가 증가함에 따라 임금도 증가하는 것처럼 보이지만, 약 60세를 넘어가면 다시 감소하는 것으로 보여진다. 파란색 선은 주어진 나이에 따른 평균 임금의 추정값이며, 그 추세를 명확하게 보여준다.

 

  근로자의 나이를 알면 파란색 선을 이용하여 그의 임금을 예측할 수 있다. 하지만 그림에도 분명하게 나타나있듯이 변동이 커서 나이만으로는 정확한 임금을 예측하기는 힘들다.

 

  우리는 또, 근로자의 교육수준 및 임금을 받은 연도에 대한 정보가 있다. FIGURE 1.1의 가운데와 오른쪽 그래프는 연도와 교육수준에 따른 임금을 보여주며, 연도와 교육수준이라는 요인들(factors)이 임금과 관련 있음을 알 수 있다. 2003년부터 2009년까지의 임금은 대략 10,000불($)로 거의 선형(직선)적이며 데이터의 변동성에 비하면 미미한 수준이다. 학력 수준이 높을수록 임금도 높다. 가장 낮은 학력 수준(1)의 남성은 가장 높은 학력 수준(5)의 남성에 비해 많이 낮은 임금을 받는 경향이 있다. 세 그래프를 보았을 때 확실히, 나이, 학력, 연도를 사용하면 남성의 임금을 비교적 정확히 예측할 수 있을 것이다. 3장에서는 이 데이터 셋을 사용하여 임금을 예측하는 선형회귀에 대해 알아볼 것이다. 이상적으로, 우리는 임금을 예측하는데에 있어서 임금과 나이 사이의 비선형적 관계에 대해 설명해야 한다. 7장에서는 이런 문제를 해결하기 위한 접근법에 대해서 논의한다.

 

2) 주식시장 데이터

FIGURE 1.2
FIGURE 1.3

 

3) 유전자 발현 데이터

FIGURE 1.4

 

반응형