로버스트, 로버스트 회귀
Dall-e2 에 대한 호기심으로 관련 기술에 대한 글과 논문들을 찾아보다가, 다음과 같은 단어를 만났다.
'robust' 익숙하면서도 무슨 의미였는지 떠오르지 않았다. 단순히 생각났던 건 학기중에 수업 중간중간 로버스트 회귀분석에 대해 다뤄봤던 것 정도였다.
생각해보면 로버스트라는 단어가 통계학을 공부해 보다 보면 종종 나온다. 그럼 이 로버스트란 단어는 정확하게 무슨 의미이고 어떨때 쓰는 단어일까?
이와 같이 '로버스트'의 사전적 의미는 '튼튼한', '탄탄한' 정도로 쓰여진다. 그러면 통계학에서 튼튼한 통계량은 무슨 의미를 가질까?
고등학교 시절 처음 평균과 중앙값에 대해 배울때 평균이라는 통계량의 한계에 대해 배우게 된다. 그 한계점 중 하나가 '이상치'의 영향을 많이 받는다는 점이다. 예를들어, 어느 회사의 급여수준을 하나의 통계량으로 보여준다고 할 때, 평균을 사용하면 다음의 문제가 생긴다.
한달 급여 : 300만원, 400만원, 250만원, 2000만원 → 평균 737만원
이러한 평균 통계량은 이상치(2000만원) 에 의해 치우쳐진 값으로, 조사목적이 일반 사원들의 급여수준을 알아보기 위함이였다면 평균과 같은 통계량을 사용하는 것이 유용하지 않을 것이다.
이러한 경우, 평균이 아닌 중앙값(400만원)을 선택하는 등의 방법으로 조사목적에 맞게 더 잘 설명할 수 있는데, 이처럼 이러한 이상치에 영향을 더 적게받는 통계량을 '로버스트한 통계량' 이라고 표현하는 것이다. 마찬가지의 표현으로서 '로버스트한 방법을 사용한다' 등의 경우도 단순히 '강인한 방법'으로 해석하기 보다 이와같은 의미를 내포하는것으로 해석하는 것이 자연스러울 것이다.
로버스트 회귀분석 역시 마찬가지다. 회귀직선 역시 이상치의 영향을 많이 받으므로, 이상치에 대한 고려없이 단순히 회귀분석을 돌리는 경우 문제를 초래할 수 있다.
이를 해소하기 위해서 통계학에서는, 지랫대와 스튜던트화 잔차를 통해서 영향점 (모형에 포함시켰을 때, 회귀선에 영향을 매우 많이 주는 관측점) 을 찾고 이를 제거하는 방법도 있겠지만, 잔차 계산시 평균이 아닌 중앙값을 사용하여 이상치의 영향을 줄이는 로버스트 회귀 역시 이상치로 인한 회귀직선 추정의 오차를 줄이는 방법도 대안이 될 수 있을 것이다.
https://www.youtube.com/watch?v=z1sI7pjs308