로그인|회원가입|고객센터
Top
검색버튼 메뉴버튼

보험사의 데이터 정리와 모델링 변수

232호 (2017년 9월 Issue 1)

최용주 최용주
최용주
서울과학종합대학원(aSSIST) 부총장
yjc@assist.ac.kr
김진호 김진호
김진호
-서울과학종합대학원 빅데이터 MBA 주임교수
jhkim6@assist.ac.kr
보험사의 데이터 정리와 모델링 변수

구체적인 데이터로 회원 이탈을 탐지하는 과정을 보자. 한 보험사의 4만4942명의 회원에 대한 실제 데이터를 <표 4>와 같이 정리했다.

회원의 현재 상태는 유지는 0, 해지는 1로 나타냈으며 기계학습 모델은 어떤 회원에 대한 정보, 즉 그 회원에 대한 11개의 설명변수(X1 ∼ X11)가 주어졌을 때 그 회원이 보험을 해지할 확률을 계산한다. 계산된 확률이 0.5를 넘으면 그 회원은 해지 예상자로 분류해 경고를 내리고 필요한 조치를 취하게 된다.

본 사례에 대해 이런 종류의 분석에서 가장 많이 쓰이는 로지스틱 회귀분석 기법을 사용한 결과를 보자. 우선 각 변수가 회원의 현재 상태에 미치는 영향을 보면 해지한 경험이 있거나 해지한 횟수가 많으면 해지할 확률이 증가했다. 또한 납입기간이나 보험기간이 길면 역시 해지할 가능성이 높아졌다. 반대로 남자일수록, 운전자일수록, 계약시기가 최근일수록, 납입횟수가 많을수록, 연체횟수가 많을수록 해지할 확률은 낮아졌다. 연령이나 주보험금의 크기는 해지 확률에 유의한 영향이 없었다. 해지에 미치는 영향력의 크기는 성별, 운전 여부, 납입횟수가 가장 높았으며 부할 횟수는 가장 낮았고 나머지 변수들의 영향력은 중간 정도로 비슷했다.