[논문 리뷰 & 공부] 소비자 유형 분류 분석
0. 개요
소비자에게 맞춤 컨텐츠를 제공하기 위해, 또는 소비자 각 개체간의 이분산성을 이해하고 정확한 분석을 진행하는데 우선하여 소비자 유형분석은 굉장히 중요하다.
오늘은 Dacon의 '학습 서비스구독 연장 여부 예측' 의 연장선으로, 학습 서비스의 소비자 패턴을 분리하고 소비자의 특성을 뽑아보는 방식을 적용해보고자, 아래와 같은 연구논문을 먼저 읽어보고 전반적인 분석과정을 답습하는 과정으로 공부하였다.
1. 논문 소개
(DBpia) 빅데이터 기반 머신러닝 기법을 활용한 소비자유형 분석 및 군집화에 관한 연구: 고객 리뷰평점 중심으로 (2023.02 신호철, 허철무)
논문 목표 :
기업은 제품 판매 증진을 위한 판매촉진(가격할인, 가치부가)(금전적 판촉/비 금전적 판촉)을 진행하는 데, 이는 다양한 방식이 가능하며, 이에 대한 소비자들의 평가는 곧 리뷰반응으로 이어질 것이다. 그러나 실제로는 같은 판매촉진 방식에 있어서도 소비자들은 같은 구매패턴을 보이지 않는다. 이는 소비자들 내의 이분산성때문이다. 이러한 서로 상이한 소비자층의 소비심리를 파악하는 방법론으로 비지도학습 clustering 방식을 활용하여 소비자유형을 분리하는 방시을 고안하였고, 이를 통해 소비자에게 맞춤화된 판매촉진 전략을 수립하는데 도움을 줄것으로 예상한다.
목표 1. 판매 데이터를 통한 계층적 군집화 및 최적 군집 도출
목표 2. 각 군집별 특성 파악, 개별 분류모델 모델링을 통한 군집별 차이 비교
목표 3. 고객이 남긴 (긍정)리뷰에 가장 영향을 끼친 독립변수 파악
데이터 : 국내 점유율 1위 S사의 스마트 밴드의, 국내 온라인 쇼핑사 A사의 실시간 상품 판매 자료
관련 연구 :
일반적인 소비자 세분화 방식은 비슷한 선호의 취향을 가진 소비자를 표적시장으로부터 선정해 특정 소비층에게 자원과 노력을 집중하는것이다.
일반적인 기준 변수로는 인구통계학적, 지리적, 성격적, 라이프스타일 등의 관련 변수들을 활용한다. 분석방법으로느느 세분화와 군집화로 나눌 수 있고, 세분화는 유사성을 기반으로 데이터를 수동으로 배치하는 프로세스(인구통계학적 분류, 고객등급 분류 등 마케터가 설정한 기준을 따름)를, 군집화는 데이터를 바탕으로 유사성을 자동적으로 계산하여 군집으로 만드는 프로세스를 따르며, 이렇게 나뉘어진 하위 소비집단을 Segment 라고 한다.
군집분석 알고리즘 예로, k-means 군집, Partitioning 군집, 밀도 기반 군집, 모형 기반 군집, 격자 기반 군집, 커널 기반 군집, Self Organizing Maps 방법 등이 있다. 이 중 논문에서는 계층적 분석 방식 중 Ward-Linkage 방식을 채택하였다.
- Ward Linkage
계층적 연결법은 각 데이터 개별 군집에서 하나의 군집까지, 유사한 군집끼리 순차적으로 묶어가는 방법으로, 군집간의 거리를 계산하여 가장 가까운 순으로 묶어간다. 이때 거리 측정법으로 아래와 같은 다양한 방식이 존재한다.
그 중 ward 연결법은 두 군집이 합쳐졌을때의 오차제곱합 증가량을 기준으로 거리를 측정하게 되는데, 기존의 중심연결법과는 다르게 계산식에 군집 크기의 균형이 영향을 미치므로, ward 연결법은 다른 연걸법에 비해 군집간의 크기를 균일하게 유지 가능하며, 이상치에 강한 성능을 보인다.
군집분석 - WardLinkage
https://rfriend.tistory.com/227
[R 군집분석 (Cluster Analysis)] (1) 응집형 계층적 군집화 : (1-5) Ward 연결법 (Ward Linkage Method)
응집형 계층적 군집화(agglomerative hierarchical clustering) 방법 중에서 - 지난번 포스팅에서는 중심 연결법 (Centroid Linkage Method)를 다루었으며, - 이번 포스팅에서는 Ward 연결법 (Ward Linkage Method)
rfriend.tistory.com


- 소비자 세분화 사례
사례 1) 소비자 4가지 유형 분류 연구
- 저가 선호형
- 다양한 할인 혜택(가격 특가, 쿠폰)을 선호
- 충동 구매형
- 구매 의사결정이 즉흥적
- 다양한 가격혜택이나 편의성을 고려
- 불신형
- 사용후기, 구매평가를 신뢰하지 못함
- 편의 추구형
- 온라인으로 다양한 정보와 상품을 구매하는데 편리하다고 생각
사례 2) 소비자 8가지 구매성향
- 완벽주의자 성향
- 브랜드 추구 성향
- 유행 추구 성향
- 유희적 성향
- 경제적 성향
- 충동적 성향
- 과소비적 성향
- 브랜드 충성 성향
연구 시행 :
연구는 특정 홈쇼핑의 S 사의 스마트 워치 판매 데이터를 활용하였으며 소비자 관련 변수 총 14개의 변수가 수집되었다. 대표적으로는 '나이', '판매 촉진 유형', '성별' 등의 numeric 또는 categorical 데이터 등이었으며, 변수정보를 보기좋게 표로 정리하였다.
또한, 리뷰데이터를 수집하여, 1-3점까지는 부정, 4-5점은 긍정 리뷰로 분류하고 이를 연구 2-3의 target 데이터로 선정하였다. 이를 바탕으로 소비자의 제품에 대한 긍 부정에 영향을 끼친 독립변수들을 유의미하게 파악 가능할 것이다.
연구 목표는 크게 3가지로,
1. 소비자 군집 분류
2. 군집별 독립적인 예측 모델 적용 및 차이 비교
3. 각 군집별 리뷰점수에 유의미한 영향을 미친 변수순위 정렬
분석 0. 기술 통계량 및 상관계수
먼저 각 변수간 기술적 통계(평균, 분산, 중앙값, 최빈값) 를 통해 각 독립변수의 특징을 비교하였다. 또한, 독립변수간 상관계수와 유의확률을 계산하였다.
상관계수는 아래의 링크와 같이 두 변수간의 선형성을 수치적으로 -1~1 까지 표현하는것으로, 간단하게는 절댓값의 크기로 두 변수간의 상관성을 해석해도 되지만, 검정통계량 t를 계산하여 p-value를 통해 통계적인 상관성의 가설검정을 시행할 수도 있고, plot을 통해 실제로 어느정도의 선형성을 갖는지 자의적으로 판단할 수 있다.
상관계수와 유의확률 계산
https://lunadaddy.tistory.com/130
상관계수(r)와 유의확율(p-value)
상관계수(r)와 유의확율(p-value) 1. Correlation (상관관계) - 상관관계는 두 변수간의 관계의 강도와 방향을 설명하는 척도입니다. 변수가 얼마나 밀접하게 관련되어 있는지 연구하는 데 사용되는 방
lunadaddy.tistory.com
분석 1. 계층적 군집화 Ward-Linkage를 활용한 clustering
분석에서는 유의미한 변수를 일부 선정하여 Ward linkage 를 기준으로 계층적 군집화를 실시하였다. 계층적 군집화는 모든 데이터의 개별군집에서 하나의 군집이 되기까지 계속해서 인접군집을 묶어가는 형식을 취하며, 일반적으로, 특정 군집갯수 상황에서 기준거리가 늘어나더라도 군집의 갯수가 증가되지 않는 상황이 지속되는경우 안정된 상태라고 판단하여, 그 군집의 갯수만큼 분류하는 경우가 일반적이다.
본 분석에서는 위와같은 간단한 방식을 통해서 1차적으로 3개의 군집이 안정적임을 하였으나, 조금 더 객관적인 통계적 방식인 Je(2)/Je(1) index 와 Pseudo-T-Squared, 그리고 분석적 직관(분석 가능한 최적의 군집 갯수, 군집에 포함되는 데이터 양)을 두루 활용하여 최적의 군집갯수를 판단하였다.
최종적으로 3개의 소비자 군집을 파악했으며, 기술 통계학적 군집 유형화를 통해 각 군집의 두드러지는 특성을 파악하고 이를 규정하였다.
- Dendro-gram (군집 갯수 결정법)
https://blog.naver.com/breezehome50/222374389827
[파이썬 시각화] 계층적 군집분석, 덴드로그램 (Dendrogram)
덴드로그램 (Dendrogram) 덴드로그램은 클리스터링의 결과를 시각화하기 위한 대표적인 그래프입니다. 대...
blog.naver.com



* 기술 통계학적 군집 유형화란 무엇일까?
- 각 군집별 특성을 파악해 군집을 규정하는걸 의미하는 건가?


분석 2. 군집별 독립적인 예측 모델링 및 성능 비교
예측 모델링에 Gradent boosting, AdaBoosting, Random Forest, CN2 rule 등의 트리기반 모델, KNN, Neural Net 과 같은 머신러닝 딥러닝 모델을 황용하였고, target 및 유의미하지 않은 기타변수들을 제거한 독립변수를 바탕으로 target : '별점 리뷰 긍/부정(1/0)' 을 이분류하는 모델을 학습하였다.
이때 트리기반 모델을 다수 사용한 이유는, 예상컨데, 소비자 데이터에 적합하게 다양한 이상치 데이터에 경건하며, 성능이 뛰어나고, 모델 해석 편의성이 높기 때문일 것이다.
또한 모델 성능 향상을 위해 각 모델별 최적의 하이퍼 파라미터를 탐색하였고, 성능 비교의 객관성을 확보하기 위하여 Cross Validation test 를 진행, AUC, CA, F1-score 를 다양하게 사용하여 최적의 모형을 탐색하였다.
분석 3. 각 군집별 독립변수 타당성 순위 정렬
Relief 알고리즘을 이용하여 각 군집에서 별점 리뷰 긍/부정에 가장 영향을 끼친 독립변수를 계산하였다. Relief 알고리즘 자체가 조금 어려워서 앞으로 깊은 공부가 필요해 보인다. (그냥 gradient boosting의 변수 중요도 계산과 유사한것 같기도 함)
각 군집별 독립변수 타당성 순위와, 전체 데이터 독립변수 타당성 순위를 비교하면서, 각 군집의 두드러지는 구매특성과 소비자의 인구학적 특징을 살펴볼 수 있었다. 예를들어 한 군집에서의 독립변수 타당성 순위는 1위 지역, 2위 판매경로, 3위 판매일, 4위 나이, 5위 상품 순으로 나타났고, 각 군집별 변수들의 기술 통계량의 차이가 두드러진다면, 이러한 그룹은 특정 지역군의 특정 판매경로로 유입된 인구로 더 디테일한 소비 선호 분석이 가능하다.
이를 통해 총 3개의 군집에 대한 특성을 파악하였고, 각 소비 그룹의 공통특성을 규정, 소비에 가장 긍정적 영향을 끼친 요소를 파악하고, 본 군집을 대상으로 한 마케팅 전략은 어떤식으로 짜여져야 하는지에 대한 분석이 가능했다.
또한 전반적으로 각 군집별 세분화된 통계분석 결과가 서로 상이함을 바탕으로 본 분석에 사용된 특정 쇼핑몰의S사의 소비자층 내에, 선호도 측면에서 이분산성을 갖는 여러 소비자 군집이 존재함을 증명하였다.
내 결론?
박사 학위 논문이다 보니, 특히 경영학적 측면에서 소비자 그룹을 분리하고 분석한 깊이있는 논문이라고 생각한다. 분석과정 역시 체계적이고 논리적이며, Orange3 를 활용하여 전반적인 분석과정(각 그룹별 일괄적 분석 파이프라인 적용 등)이 일관적이고 깔끔하게 진행 및 정리되었다고 생각한다.
소비자 군집 분석을 위해 비지도 학습 clustering 을 활용하되, 데이터의 특성을 반영하여, 실제 우리는 소비자 그룹이 어떻게 퍼져있는지 모르므로 계층적 군집화를 활용, 이상치에 덜 민감하고 균형잡힌 군집 선택을 위해 Ward linkage, 객관적 군집 개수 선택을 위한 Je(2)/Je(1) index 와 Pseudo-T-Squared 지수 활용, 기술통계량과 트리가반 모델 개별학습, relief 알고리즘을 통한 군집별 특성 및 소비자 데이터 내 이분산성 파악 과정을 통해, 소비자 분류 및 분석과정을 수행할 수 있었다.
기존의 학부에서 주로 다뤘던, k-means 나 DBSCAN 을 통한 군집화, 실루엣 계수를 통한 군집 유의성 판단과정에서는 객관적인 분석 흐름과 목표가 뚜렷하지 않았던 반면 이 논문에서는 전반적 분석 목표 선정, 적절한 파이프라인 선택, 최종 결론 도출과정이 일관적이면서 깊이있게 다뤄졌던것 같다.
그러나 결과 해석에서 개인적인 의문이 들었다. 별점 리뷰의 긍정적 영향을 줄 수 있는 요소를 탐색하는 일은 과연 유의미한 분석결과를 제공하는가? 그 결과를 어떻게 해석할 수 있을까? 와 같은 의문이다.
먼저 별점 리뷰란것이 소비자의 어떤 특성을 대변할 수 있는 변수인지 고민해봤고, 크게 다음과 같은 한계가 있다고 생각한다.
첫번째로, 표본의 대표성에 대한 의문이다.
모든 제품 구매 소비자가 구매후기를 작성하지 않는다. 생각해보면, 리뷰 등의 구매기록을 습괸적으로 남기는 소비자를 제외하면, 리뷰 이벤트를 위해 작성한 리뷰 (대부분 금전적 보상이 따르므로 긍정적 리뷰 작성), 특정 부분애서 기대보다 크게 만족했거나(특정 시점의 가격, 사은품, 이벤트), 기대에 비해 실망하여 이를 건의하고 싶은 유저들도 있을것이다.(배송상태, 사은품 질, ) 즉, 별점리뷰를 작성한 샘플 자체가 모집단에 비해 불균형이 심한 샘플이며, 소비자 군집과 상관관계가 존재할 수 있다.
두번째로, 별점지표 자체의 신뢰성에 대한 의문이다.
별점리뷰가 작성된 데이터는 모두, 별점 지표가 긍정이든 부정이든, 그 시점에 A 쇼핑몰에서 S사 스마트 워치를 구매한 고객이다. 즉 별점지표는 본 논문에서 제시한 '판촉 지표' 즉 '판촉에 긍정적 영향을 끼친 요소' 로 해석하는것은 과해석의 여지가 있다고 생각한다. 물론, 소비자 리뷰는 구매 직후 발생되는 사건으로, 제품 만족도 보다는, 즉시 받을 수 있는 보상 즉 판촉행사 의견이 크게 반영되는 지표라고 생각한다. 그러나, 이는 소비자의 사전 기대, 배송 또는 제품 자체의 만족도, 소비자의 리뷰 성향에 따라 크게 달라질 수 있는 지표이므로, 조금더 객관적인 판매량 대변 지표를 사용하는것이 바람직하다고 생각한다. (클릭 대비 전환률(CVR), 특정 이벤트 시점의 판매량)
따라서 분석 목적, 목적 달성을 위한 표본 선택, target 변수 선정 과정도 조금 더 디테일한 연구가 필요하다고 생각한다. 이를 위해 '제품', '판매 매체' 즉 '스마트 워치', '쇼핑몰 판매' 에 대한 조금 더 디테일한 조사와 연구가 반영되어야 된다고 생각한다.
예를들어 '쇼핑몰 구매' 의 경우에는 단순한 소비자 군집에 따른 구매특성 외에도, 특정 쇼핑몰의 판매전략, 마케팅 방식, 시기적 상황들이 특정 소비자층 유입을 유도할 수 있다. 즉, 소비자 데이터 뿐 아니라 쇼핑몰 자체가 갖는 특성을 반영한다면 더 객관적인 조사가 될 수 있다. 소비자 구매 유입 경로를 생각해보면 크게 세가지의 유입이 있을 수 있다. 'A 쇼핑몰에서 원래 구매를 이어가던 유저', 'S 사의 웨어러블 제품을 구매하고자 여러 쇼핑몰을 비교하는 유저', '특정 이벤트 및 판촉으로 인해 A 쇼핑몰에서 충동 구매한 유저' 가 있을 수 있고, 이로 인해 유입되는 소비자층의 분포 역시 달라질 수 있다.
또한, 쇼핑몰의 판촉 이벤트가 특정 기간 단위로 발생한다는 점을 이용하여, 시계열 그래프를 활용하여 각 군집의 판매 발생 빈도를 비교하여, 특정 군집에 구매가 급증한 순간 발생한 이벤트를 역추적하여 판촉 행샤의 영향을 체크하는 방식도 괜찮다고 생각한다.
물론, 별점을 이용한 경제 및 사회조사 방식은 그 자체로 신뢰성을 인정받고 여러 논문을 통해 차용된 방식임이 맞지만, 만약 내가 A 쇼핑몰의 디테일한 데이터를 수집할 수 있고, 다양한 데이터를 실제로 만져볼 수 있다면 조금더 문제에 맞는 재미있는 가설을 설정해보고 고민해볼 수 있을것 같다는 생각이 든다.