Server message: Could not allocate space for object 'dbo.ArticleHistory2026' in database 'DBR_New' because the 'PRIMARY' filegroup is full. Create disk space by deleting unneeded files, dropping objects in the filegroup, adding additional files to the filegroup, or setting autogrowth on for existing files in the filegroup. severity(4) number(81) state(2) line(1) Server Name:DBRDB001 Procedure Name:
계량분석 A to Z
지난 DBR 235호와 238호를 통해 필자는 오차항에서 비롯되는 두 가지의 중요한 편의(bias)인 누락변수 편의(omitted variable bias)와 선택편의(selection bias)에 대해서 설명했다. 이 두 가지만 제대로 이해하고 있어도 기업실무에서 계량분석 결과물을 받아볼 때에 리뷰어(reviewer)로서 상당한 민감성(sensitivity)을 지닐 수 있다. 즉 잘못된 분석의 오류를 더 잘 발견해낼 수 있다. 이번 글에서는 데이터 분석 과정에서 매우 흔히 마주하게 되는 실질적인 이슈에 대해 다루어보려 한다.
계량 데이터 분석의 첫 번째 과정에서 가장 중요한 것은 가용(可用) 데이터의 크기와 질이다. 양적인 측면에서 수집된 표본 자체의 크기(The number of observations)가 커야 하고, 질적인 측면에서 다양한 변수들을 통해 포괄적인 정보를 제공할 수 있어야 하며, 동시에 데이터의 마모(attrition)가 적어야 한다. 이때 데이터의 마모란 쉽게 말해 데이터 일부를 불가피하게 ‘버려야 하는 상황’을 의미하는데 이는 흔히 두 가지 유형의 문제에서 비롯된다. 첫째, 데이터가 잘못 입력돼 있거나(coding error, 가령, 나이가 999세로 입력돼 있는 등의 상황), 둘째, 일부 데이터가 아예 관측이 되지 않은 경우다. 이 중 두 번째 경우를 흔히 ‘결측치(缺測, missing values) 문제’ 혹은 ‘무응답(non-response) 문제’라고 한다. 통상적으로 현업에서 다루는 대부분의 데이터는 크든 작든 결측치 문제를 지니고 있게 마련이다. 엑셀의 모든 셀이 빈칸 없이 가지런하고 보기 좋게 잘 채워져 있는 경우는 그야말로 매우 드물지 않은가.
하지만 아주 중요한 변수에 대해서 상당한 양의 결측치가 관찰된다면 우리는 이에 매우 민감하게 대응해야 할 필요가 있다. 가장 간단하면서도 쉬운 방법은 결측치들을 모두 배제하고 분석을 강행하는 것이다. 하지만 이는 가장 쉬운 방법임과 동시에 매우 위험한 접근법이다. 보다 쉬운 이해를 위해 다음과 같은 상황을 상정해보자.
사례
세계적인 보험회사 A는 자사 보험 상품의 가격정책 재수립을 위해 5000여 명에 달하는 잠재 고객들을 대상으로 대규모 설문조사를 실시했다. 보험 소비자의 의료비 지출수준에 통계적으로 유의미한 영향을 미치는 주요 변수들을 파악한 후, 고객의 유형을 세분화해 유형별로 최적화된 가격정책을 수립하고자 하는 것이 분석의 목적이었다. 비슷한 성격의 선행분석 결과물을 감안했을 때 나이와 임금 수준 등은 매우 중요한 변수일 것으로 생각됐으나 전체 조사 대상의 20%가 나이에 대해서 응답하지 않았고 40%가 임금 수준에 대해서 응답하지 않았다.1
이러한 상황에서 보험회사 A가 결측치들을 모두 단순 배제하고 분석을 강행한다면 일단 표본의 크기가 심각하게 줄어드는 문제점이 발생한다. 이는 중요한 변수가 결측치일 경우, 해당 표본(응답자 i) 자체가 분석대상 샘플에서 아예 사라지는 ‘목록삭제(listwise deletion)’2
에 의한 결과인데 통상적인 통계 분석 패키지들은 ‘listwise deletion’을 기본 옵션으로 삼고 있기 때문에 주의가 필요하다. 이렇게 표본의 크기가 줄어들면 실제로는 중요한 변수가 마치 중요하지 않은 것처럼 보이는 2종의 오류(Type-II error) 발생 가능성이 높아진다는 점에서 계량 분석의 근본 목적 자체가 위협받게 된다.
더 큰 문제는 결측이 뭔가의 패턴에 의해서 ‘체계적’으로 나타날 때 발생한다. 계량경제학자들은 이를 ‘missing not at random(MNAR)’이라고 부른다. 계량분석에서 ‘체계적’이라는 표현은 통상적으로 ‘이면에 뭔가의 규칙이 존재한다’는 것을 뜻하는데 ‘무작위(random)’와 대척점에 있는 개념이라고 생각하면 이해가 쉽다. 뭔가 규칙이 존재하는데 그 규칙을 우리가 파악할 수 있을 경우 이 규칙을 모델에 포함하면 통제가 가능하므로 문제가 되지 않는다. 하지만 이면에 무작위가 아닌 체계적 규칙이 존재하는데 우리가 그 규칙을 모르는 경우 많은 문제점이 수반된다. 결측치에 의한 문제 역시 마찬가지다. 결측이 무작위로 발생했다면 (missing at random, MAR) 결측치를 단순히 배제하더라도 표본 손실 이상의 문제는 발생하지 않는다. 하지만 결측이 뭔가의 체계적 규칙에 의해 발생했다면 이를 단순 배제할 경우 살아남은 표본이 전체를 공정하게 대표하지 못하게 되므로 분석 결과가 심각한 오류를 피하기 어려워진다.
가입하면, 한 달 무료!
걱정마세요. 언제든 해지 가능합니다.
경제·경영 질문은
Askbiz에게 물어보세요
회원 가입만 해도, DBR 월정액 서비스 첫 달 무료!
15,000여 건의 DBR 콘텐츠를 무제한으로 이용하세요.