본문 바로가기
쭈쪼맘의 뇌과학 이야기

회귀분석에 대한 기본적인 고찰

by 쭈쪼맘 2022. 10. 4.
반응형

1. 회귀분석에 대한 기본적인 고찰을 해보자

평균으로의 회귀

회귀분석은 생물학자 프랜시스 골턴이  '평균으로의 회귀'(regression to the mean / regression towards mediocrity) 현상을 증명하기 위해 만든 것으로 알려져 있다. '평균으로의 회귀'는 아이의 키와 부모의 키를 측정했을 때 쉽게 상상할 수 없는 극단적인 값이 되어도, 그 다음에 새로 측정을 했을 때에는 평균에 더 가까워지는, 즉 평균으로 회귀하는 경향성을 보고 그것을 일반화하기 위하여 골턴이라는 학자가 만든 개념이다.

2. 골턴의 회귀분석 연구

골턴은 부모와 그 자식의 키에 대한 자료를 만들어 205명의 부모와 그들의 자식 930명의 키에 대한 자료를 분석하여 회귀계수가 2/3임을 밝혔다. 가우스의 최소제곱법을 쓰지 않고 타원으로 적합시켜 회귀계수가 2/3임을 찾아낸 것이 특이하다. 즉, 키는 유전적인 요소가 강력하게 작용한다는 것을 밝힌 것이다. 골턴은 산점도에 최초로 선형식을 표현하여 오늘날의 회귀분석을 성립하는 데 지대한 공을 세웠다.
그러나 요즈음 현대에 와서는 회귀(regress), 즉 평균으로 돌아간다는 의미는 거의 사라졌다. 요즘에는 독립변수와 종속변수를 설정 하고 이들의 관계를 통계적으로 살펴보는 대부분의 방법론을 모두 일컬어  회귀분석이라고 부르기도 한다. 시계열 데이터를 사용하면 시계열 회귀분석이고 패널 자료를 사용하면 패널 회귀 분석인 식이다.

 

 

3. 회귀분석을 통하여 알 수 있는 세가지

  회귀분석을 통해서는 다음 세가지를 알 수 있다.

  • 종속변수와 독립변수 사이에 선형관계가 존재하는지
  • 종속변수에 영향을 주는 독립변수가 유의 한지와 그 영향력의 정도
  • 추정된 회귀모형을 통하여 종속변수의 예측치
     
    모형'은 간단히 말하면 현실을 간략하게 표현한 것이다. 앞에선 이야기한 여러 가설들을 회귀'모형'이라고 부르는 이유는, 그 모형이 100%까지는 아니라고 하더라도 간단한 가설을 통해 현실의 많은 부분을 설명해줄 수 있기 때문이다. "경제학의 많은 문제는 검증이 불가능하여 가설 설정에 그치기 때문에 모형"이 된다는 설명은, 오히려 수리적으로 모형을 검증하기 위한 실험이나 자료수집 역시 있다는 것을 생각해보면 다소 부적절한 설명이다.


기본적으로는 오차를 가능한 한 작게 만드는 모형이 좋은 모형이기 때문에 오차를 가장 작게 만드는 모형을 찾는 방법들이 만들어졌는데, 가장 일반적으로 접하게 되는 것은 자료와 평균의 오차를 제곱해서 더했을 때, 그 합이 가장 작아지는 모형을 찾아내는 '최소제곱법'이다. 자료와 평균의 오차만 구해서 그대로 더하게 되면, '평균'의 정의로 인해 오차의 합은 반드시 0이 된다. 때문에 일부러 오차를 제곱해서 0보다 큰 수들로 만든 다음에 이 값들을 누적하여 사용하는 것이다


일반적으로 예측된 Y 값과 실제 데이터들 사이에 오차가 생긴다. 오차의 갯수느 양은 다양하지만 평균적으로 오차가 많으면 상관관계가 적어진다.

종속변수의 예측값과 종속변수 실제값의 상관계수의 절대값인 R2은 은 "전체 제곱합 중에서 회귀 제곱합이 설명하는 비중", 즉 "모형의 설명력"이다.

-1 ≤ r ≤ 1
0 ≤ R2 = SSR/SST ≤ 1

총 제곱합(total sum of square)이 SST, 회귀 제곱합(regression sum of square)이 SSR, 잔차 제곱합(residual sum of square)이 SSE이다. 단, 위의 부등식은 절편을 포함한 선형회귀에 대해서만 성립한다.

회귀 분석의 귀무 가설 H0는 "기울기 β1=0이다"같은 것이고, 대립 가설 H1은 "기울기 β1≠0이다"와 같은 것이다. 구체적인 예를 들자면, H0는 "약이 효과가 없다"이고, H1은 "약이 효과가 있다"이다. 회귀 분석에서 절편은 β0라고 하고, 기울기는 β1이라고 한다.

독립 변수가 종속 변수에 얼마나 영향을 끼치는가를 검증할 수 있다. 예를 들어, 공부 시간이 학교 성적에 얼마나 영향을 미치는지, 약물이 얼마나 효과가 좋은지 분석해볼 수 있다. y = β0 + β1 * x 와 같은 형태인데, 독립 변수가 x, 종속 변수가 y이다.

(1) H0: β0 = 0 vs β0 ≠ 0
(2) H0: β1 = 0 vs β1 ≠ 0

1번처럼 절편이 0인지 아닌지와, 2번처럼 기울기가 0인지 아닌지에 대한 검증이다. 많이 쓰는 건 2번이다. β1이 0이 아니라면 공부 시간이나 약물이 성적이나 질병에 효과가 있다는 것이다. p-값이 0.05보다 작으면 독립 변수가 종속 변수에 영향을 준다고 볼 수 있다. 특히, β1이 클수록 공부 시간이나 약물이 성적이나 질병에 효과가 좋다는 의미이다.

기울기 모수에 대한 검정이 보다 일반적인 이유는 회귀분석의 주된 목적이 변수 간의 관계를 알아보는 것이기 때문이다. 다만 연역적으로 유도한 결과 상수항(절편)이 없는 모형이 나왔고, 이 모형의 현실설명력을 실증적으로 검정하고자 할 때에는 β0에 대한 검정도 중요하다. 즉 어떤 가설을 사용할지는 개별 연구의 목적에 따라 달라진다. 그리고 이런 경우에는 독립변수들이 음수와 양수에 폭 넓게 분포해 있어서, 절편에서의 신뢰구간이 좁게 나오는 경우도 많다.

 

반응형

댓글