간단 개요)
해당 분석은 kaggle 의 'eCommerce Behavior Data from Multi-Category Store' 데이터를 기반으로,
월 평균 300만 명의 방문 고객을 보유한, 미국 대형 이커머스의 고객 이벤트 로그 데이터를 활용해 해당 이커머스의 핵심 카테고리인 스마트폰의 구매패턴을 분석하고, 전환률을 높이기 위한 액션을 제안하는 프로젝트입니다.
Part 1 막바지에, 구매/이탈까지의 소요시간을 중심으로 크게 두가지의 고객 세부 군집을 정의했습니다.
1. 즉시 구매 고객 : 이미 상품 구매 결심을 마친 상태로 방문, 가격/조건 비교 후 빠르게 구매를 완료하는 고객.
2. 장기 상호작용 고객 : 관심/구매 의지는 있지만 신중하게 고민하며, 구매까지 장기적인 상호작용을 거치는 고객.
그중, 즉시 구매 고객(1시간 이내 첫 구매 완료/이탈)에게 구매시 중요하게 고려되는 요소는 무엇인지 분석해보고자 합니다.
1. 즉시 구매 고객의 특징
<고객이 평균 10분 이내에 상품 검색을 마치고, 즉시 구매했다>는건 무슨 의미일까요? 아래의 즉시 구매 고객의 구매여정을 예로 보겠습니다.
440471930(user_id) 고객은 samsung 브랜드의 스마트폰을 1회 view 이후 cart에 담았고,
또 samsung 제품을 2번 view 한 이후 cart에 넣고, 최종적으로, 2개 중 1 개의 상품을 purchase 했습니다.
여기서의 인사이트는, 3번의 제품 view, 2번의 cart, 1번의 purchase 가 이루어진 상품이 모두 동일 1개 제품이라는 점입니다. 즉, 해당 고객은 구매 과정에 있어 'samsung, 1004857' 상품 외에는 클릭(고려)조차도 하지 않았다는 의미입니다.
이는 실제 통계값에도 마찬가지입니다.
1시간 이내 구매/이탈을 결정하는 고객들은 평균적으로, 3번의 view 이벤트, 2개 내외의 상품을 view 해보고 구매/이탈을 결정합니다. 즉, 해당 고객들은 커머스 내에서 제품을 막 비교해보기 시작한 것이 아니라, 원하는 상품을 미리 정해놓고, 해당 커머스내의 조건을 살펴보는 고객들로 보는것이 가장 바람직합니다.
따라서, 즉시 구매 고객 의 구매여정은 원하는 상품/또는 조건을 결심해 두고 (또는 사전조사를 끝내놓고), 커머스에서 해당 조건에 부합하는 상품을 찾는 과정으로 볼 수 있습니다.
좀 더 디테일하게 아래와 같은 고객 페르소나를 정의해보겠습니다.
- 원하는 상품/구매 조건을 갖고 방문 : 상품 검색 / 추천 / 제품 가격 필터링 후 조건에 부합한 상품이 있다면 구매.
- 원하는 상품 존재 + 페이드 미디어 광고로 접속 : 관심 상품 + 관심 혜택 조건이 부합하면 구매.
- 가격 비교 사이트 / 블로그 추천 등 직접 링크 접속 : 상품 할인율 및 조건이 기대에 부합하면 구매.
이러한 고객의 니즈에 따라, 아래와 같은 커머스 요소들이 구매에 영향을 끼칠수 있습니다.
- 상품 탐색 정확성: 고객이 원하는 조건 / 가격의 상품을 플랫폼에서 쉽게 찾을 수 있는지.
- 상품 조건 만족도: 상품 상세페이지에 기재된 내용이 고객의 기대에 부합하는지.
- 상품 가격 만족도: 고객이 선택한 상품의 적용 할인율이 적절한지.
즉 <고객-상품> 단위로, (1) 해당 고객이 커머스 내에서 관심 제품을 찾았는지, (2) 그 제품을 실제로 구매까지 연결했는지를 판단하는것이 해당 part2의 핵심 목표입니다.
2. 구매 예측을 통한 즉시 구매 요인 분석
수집 가능한, 'event_type', 'event_time', 'product_id', 'brand', 'price' 컬럼을 활용해 각 유저별로 해당 상품과 얼마나 상호작용했는지를 여러 파생변수로 집계하여 계산해 봤습니다. 그리고, 이를 활용해 최종적으로 그 고객이 해당 제품을 구매했는지 여부를 예측하여, 구매에 영향을 미친 요인을 탐색하고자 합니다.
집계한 변수와 그에 대한 설명은 아래와 같습니다.
독립변수 )
- view (view_count) : 해당 유저가, 해당 제품을 몇번이나 클릭했는지.
- cart (cart_count) : 해당 유저가, 해당 제품을 몇번이나 cart에 담았는지.
- view time avg : 해당 상품 view 페이지에서 평균 얼마나 머물렀는지. )
- discount_rate : 유저가 해당 상품을 view 했을때의 할인율.
- view_ranking : 해당 상품을 몇 번째로 클릭했는지.
- brand : 해당 상품의 브랜드.
- price_cut : 상품 가격대(0: 저가 가성비 제품(0~250) / 1: 중고가 제품(250~1000) / 2:프리미엄 제품(1000~))
반응변수 )
- purchase_true : 1/0 (구매여부)
( * 이때, 'Brand', 'Price' 는 실제 예측에 활용되기보다는, 해당 브랜드/가격대 별 구매에 차이가 있는지 살펴보기 위한 변수입니다.)
3. "유저 - 상품" 별 구매 여부 예측 및 요인 분석
즉시 구매 유저(1시간 이내 구매/이탈) 중, 실제 구매 유저 비율은 약 10% (약 10만명)인 불균형데이터입니다.
또한, view, cart 등은 클릭 '횟수' 데이터이며, view time avg 는 '시간(초)', discount rate는 할인'률' 을 의미하므로 표준화를 통해 단위를 일치시켜줄 필요가 있습니다. 따라서 아래와 같은 전처리 및 변수 선택기법을 적용하였습니다. (+ 이상치 제거)
Log1p + StandardScaler + UnderSampling + SequentialFeatureSelector
또한, 고객이 해당 상품을 구매했는지 여부를 예측하므로 아래와같은 평가지표를 선택하였습니다.
Accuracy, ROC-AUC
이를 활용하여 최종 예측한 결과는 아래와 같습니다.
< Logistic 계수>
Test data Accuracy: 0.83
Test data ROC-AUC: 0.92
- view_rank : -0.5960601638097983
- view : 0.22657523258552933
- cart : 2.581710668746279
- view_time_avg : 1.0389682476933377
- users_price : -0.008427380272487201
- discount_rate : -0.050025013343917
모델링 결과를 해석해보면,
Cart_count(2.58) >> View_time_avg(1.03) > View_rank(-0.59)
순으로 구매에 가장 직접적인 영향을 끼친것으로 나타납니다.
즉, 동일 상품을 Cart 에 많이 담았을수록, 상품 상세페이지에 평균 체류시간이 길수록, 고객에게 빨리 원하는 상품이 등장할수록 구매 전환 확률에 긍적인 영향을 끼친다는 사실을 알 수 있습니다.
아래 그래프를 통해, 좀 더 디테일하게, 몇번의 이벤트가 발생해야 구매 전환률이 증가하는지를 살펴보겠습니다.
<전환률 증가 특징>
- 고객이 상품을 Cart에 1회 이상 담을 경우 63%, 2회 이상 담을 경우 70% 이상 구매 확률이 증가.
- 고객이 view 한 상품의 상세페이지에 100초 이상 머무를 경우에도 22%~30%까지 구매확률이 높아짐.
- 고객이 원하는 상품을 1번째로 클릭(발견한) 경우 구매율이 12% 로 압도적으로 높은 수치를 보였음.
- 같은 상품을 여러번 view (또는 클릭)한 경우도 구매 확률이 지수적으로 증가하였음.
(+) 의외로 '제품 할인률은 오히려 구매와 관련이 없거나, 구매 여부와 음의 상관관계를 가지고 있음' 을 확인할 수 있었는데 이는 할인율이 낮았던 10월 초에 고객들의 구매율이 높았으며, 반대로할인율이 가장 피크를 찍은 월말에는 오히려 스마트폰 판매량이 부진했던게 원인으로 보입니다.
따라서, 좀 더 디테일한 정보가 추가된다면, 월 말에 할인률이 높았음에도 구매율이 떨어졌던 원인을 따로 추척할 필요가 있어보입니다.
또한, 선호하는 제품 브랜드나 가격대(저가, 중고가, 프리미엄) 에 따른 구매패턴에 큰 차이는 없었으나,
주로 저가 or 보급형 브랜드/상품을 구매할때, 더 많은 상품탐색, 더 긴 상세페이지 비교, 더 많은 cart 담기가 이루어지며, 할인율에 민감해지는것으로 봤을 때, 저가 브랜드 구매 고객이 상대적으로 구매조건에 관심갖고 꼼꼼하게 여러 제품을 비교해보는 경향을 갖는것으로 관찰되었습니다.
part2 결론)
목표는 구매 전환 요인 분석이었고, 같은 상품이더라도 상세페이지별로 상품 판매 조건, 사은품, 배송기간, 지불 방식등 다양한 요인이 구매에 영향을 끼칠수 있다고 판단되어 해당 커머스의 어떤 부분에서 고객들이 차별적인 가치를 얻는지를 디테일하게 분석하고 싶었으나,
로그로 확인 가능한 정보는 'view, cart, purchase event' 여부와, 해당 event 시점의 가격, 브랜드만 나와있어서, 해당 상품을 고객이 해당 상품에 관심을 가졌는가를 추측하는데까지만 간접적으로 측정가능했습니다.
어쨌건 결론에 따르면, 고객이 해당 유입이후 cart 를 활용한 경우, 해당 상품 상세페이지에서 오래 머물렀을 경우, 관심 상품을 여러번 관찰한 경우, 해당 상품에 구매의사가 있다는 간접적인 신호로서 활용할수 있습니다. 이를 활용하여 마케팅 채널 중 유의미한 마케팅이 진행되고 있는 채널은 어디인지, 서비스 UI/UX 개편시 중요 관심지표가 떨어지지는 않는지 참고하는데 활용 가능할것으로 기대됩니다.
또, 고객이 원하는 상품을 4번째까지 찾지 못한 경우, 구매율이 2%대까지 하락하는 것을 참고하여, 추천시스템 목표를 원하는 상품을 4회 이내로 찾을 수 있게끔 추천시스템을 구성하는 방안도 현실적인 목표로 활용가능하다고 생각합니다.
'프로젝트 > 캐글 경진대회 스터디' 카테고리의 다른 글
[kaggle] 이커머스 고객 행동 로그 분석 part 4. (분석 목표 : 매출 증진을 위한 크로스셀링 제안) (1) | 2024.12.07 |
---|---|
[kaggle] 이커머스 고객 행동 로그 분석 part 3. (분석 목표 : 방문 후 1시간 이상, Cart를 활용하는 고객들의 구매 요인 분석) (2) | 2024.12.05 |
[kaggle] 이커머스 고객 행동 로그 분석 part 1. (분석 목표 : 전환 과정의 pain-point 탐색 및 개선) (1) | 2024.12.02 |
[게임 데이터] 벽돌 깨기 게임 로그 분석 - 12개 맵 난이도 분류 (0) | 2024.06.25 |
[DACON] "이커머스 고객 세분화 아이디어 보고서" - RFM/선호 카테고리/구매 패턴 기반 고객 세분화 전략 (0) | 2024.03.03 |