본문으로 바로가기

Regression(회귀 분석)이란 ?


회귀 분석은 상관 분석과 밀접한 관계가 있다. 상관 분석은 두 변수 사이의 상관관계를 알아 내는 분석이며 서로 밀접한 관련이 있을 때 점들이 모이는 성향이 있다. 


회귀 분석은 이 점들을 가지고 어떤 것을 예측하는 분석이다. 하지만 예측해서 나오는 값은  어디까지 가설일 뿐이지 정확한 값은 아니다. 


머신러닝에서의 Linear Regression 은 선형 회귀 분석으로 가설(Hypothesis)이 다음과 같은 직선 형태를 띈다. 


Y = Wx + b




머신러닝에서는, 아래의 예시처럼 들 수 있다. 





예를 들어서 다음과 같은 Training Data set이 있다고 하자

(어디까지나 쉬운 예시로 만든 data set임)




이 data set에서 예측할 수 있는 가설은 Y = 흡연 수*3 + 0 이다.  학습을 통해 얻은 가설을 실제 데이터에 삽입해 예측 할 수 있는 것이 linear regression의 방법 이다. 



머신러닝의 궁극적인 목표는, 가설과 실제의 차이를 최소화 하는 방법이다. 가설과 실제의 차이를 cost라고 하는데, 

cost를 최소화 하는 것이 보다 정답에 가까운 예측이다.