본 프로젝트는, [Dacon] "학습 플랫폼 이용자 구독 갱신 예측" 해커톤을 비지니스적 관점으로 전환하여, "구독 취소 유저를 예측 및 프로모션을 통한 구독 전환, 이를 통한 학습플랫폼 수익 증대"라는 가상의 목표를 두고 진행한 프로젝트입니다.
실제 많은 학습 플랫폼들은 강의 영상을 개별 가격으로 팔기보다는, 학습 시리즈의 대여/소지권 판매, 월별 컨텐츠 무제한 구독권 판매를 메인 Business Model로 활용하고 있으며, 특가 이벤트, 특별 대상 이벤트, 구독제별 혜택 차등화 등을 통해 판매 프로모션을 진행하고 있습니다.

저는, 구독 취소 유저 예측 및 프로모션을 통한 구독 전환시 발생하는 수익 계산(part1), 유저 특성 파악 및 실제 구독 연장/취소 예측 전략 수립(part2&3), 유저 세분화를 통한 맞춤형 프로모션 및 비지니스 전략 수립(part4) 을 목표로 진행하였습니다.
기존까지 진행한 분석 및 결론을 정리해 보면 아래와 같습니다.
Part. 1) 수익함수 정의
프로모션을 통한 수익을 이론적으로 최대로 하기 위하여 구독 취소유저만을 대상으로 구독 연장 프로모션을 진행하고자 합니다. 이때, 기존 구독 연장으로 인한 구독 수익 대비, 구독 취소 예측자에게 프로모션을 진행하여 구독자로의 전환을 성공했을때 더 높은 수익을 얻기 위한(손익 분기를 넘기기 위한) 최소 '인당 프로모션 지출액'과 '프로모션을 통한 구독 전환률' 을 정의하였습니다.
- 총 구독 유저 수: $N$
- (다음달) 구독 갱신 유저 수 : $n$
- (다음달) 구독 취소 유저 수 : $(N-n)$
- 구독유저 1인당 플랫폼 월 수익 : $c$ (실제로는 각 구독형태마다 수익이 상이할 수 있다)
- 프로모션을 통한 구독 갱신 전환률 : $\alpha$
- 1인당 프로모션 지출 비용 : $c_{p}$
이때, 기존 구독 연장 수익은 '구독 갱신유저' * '구독 1인당 월 수익' 과 같습니다.
$$nc$$
프로모션 진행시 얻게되는 수익은 구독 취소 유저 중 프로모션으로 인한 전환 유저의 구독 수익을 추가로 얻게 되며,
$$ \alpha (N-n) c $$
이때, 프로모션으로 인한 비용이 '1인당 프로모션 비용' * '구독취소 유저' 만큼 발생하게 됩니다. 즉, 기대수익은 아래와 같이 정의됩니다.
$$ (N-n)c_{p} $$
$$ (프로모션 \, 기대 \, 수익) \; f = nc + \alpha (N-n) c - (N-n)c_{p} \geq nc \, (기존 \, 기대 \, 수익) \; $$
$$ \Rightarrow \alpha (N-n)c - (N-n) c_{p} \geq 0 $$
$$ \Rightarrow \alpha c \geq c_{p} $$
그러나 위의 수식에서 우리는 전체 구독 유저 $N$명 중 실제 구독 연장자 $n$명, 취소자 $(N-n)$명의 정보를 알 수 없으며, 그렇기에 정확하게 실제 구독 취소자를 대상으로만 프로모션을 진행할 수 없습니다.
즉, 실제 프로모션 대상 선정 과정은은 최적 모델을 통한 구독 취소 예측자를 대상으로 진행하여야 합니다. 그렇기에, 우리가 실제로 진행하는 프로모션 대상 중에는, "실제로는 구독 연장 유저임에도 구독 취소로 예측한 경우(1종 오류, FN)" 가 포함되며 이때 프로모션 비용이 손실됩니다. 반대로, "실제로 구독 취소 유저임에도 구독 연장으로 예측한 경우(2종 오류, FP)" 다수의 구독 취소 유저에게 프로모션을 제공할 수 없어 전체적인 프로모션의 구독 전환 효과가 떨어질 수 있습니다.
이를 수식에 반영하면 아래와 같이 기대수익 손익 분기점을 넘기위한 부등식은 아래와 같이 수정할 수 있습니다.
$$ \alpha (N-n)c - (N-n) c_{p} \geq 0 $$
$$ \Rightarrow \alpha (TN) c - (FN + TN) c_{p} \geq 0 $$
$$ \frac{TN}{TN + FN} \alpha \geq \frac{c_{p}}{c} $$
즉 최대 수익을 최대화하기 위해서 위의 부등식이 강하게 성립해야 하며, 이는 곧, 우리 모델의 Specificity를 높이거나, 프로모션 구독 전환률, 구독수입을 높이고, 인당 프로모션 지출 비용을 효율적으로 줄일 필요가 있습니다.
즉 구독 연장 예측모델링을 수행할 때의 목표로, Accuracy 를 높임으로서 TN (true negative) 를 높일 뿐 아니라, F1-score를 통해 FN, FP 를 균형있게 낮출 필요가 있으며, 필요에 따라 Specificity( TN/(TN + FN) ) 을 극단적으로 높일 필요가 있습니다.
Part. 2 & 3 ) EDA 및 모델링
EDA를 통해, 수집된 학습 플랫폼의 10000명의 유저 데이터, 14개의 독립변수와, 1개의 타겟변수(다음달 구독 연장/취소 여부) 에 대한 특성을 파악했습니다.
많은 유저들이 평균적으로 1달에 15일 접속, 하루평균 54분 동안 학습을 진행했다는 등의 일반적인 행동 패턴을 확인할 수 있었고, 특히 mean 과 median 이 일치하는지 (분포의 치우침 확인), 변수에 대한 이상치가 존재하는지(4분위수와 max값 비교), 범주형 변수의 범위와 특성은 무엇인지(가변수 처리, 표준화) 를 기준으로 데이터 특성을 파악했습니다.


그 중, '평균 학습 세션' 변수에서 타겟변수(구독 연장 그룹/구독 취소 그룹)간 유의미한 분포 차이를 발견하며 가장 유의미한 변수로서 파악하였고, 분포의 좌 치우침 및 이상치 효과를 제거하기 위해 log1p를 활용하여 처리해주었습니다.
또한 구독 취소 여부와 유의미한 상관관계의 변수 탐색을 위해 아래와 같은 가설을 세우고 통계적으로 검증하였습니다.
- 구독 연장 유저와 구독 취소 유저간 유의미한 분포차이가 존재할까? - 카이스퀘어 검정, f-oneway ANOVA
- 3개월간 결제가 없던 유저 vs 3개월 전 결제 유저 vs 2개월 전 결제 유저 vs 1개월 전 결제 유저간의 구독 연장 여부의 차이가 존재할까? (장기 구독, 단기 구독 선호 고객 간의 구독 연장 차이) - f-oneway ANOVA
- 변수간에 유의미한 선형 상관관계가 존재하는가? - 상관계수, ViF score
데이터 내의 다수의 이산변수 및 이상치, 변수간 상관성을 고려하여, 모델링에서는 변수 선택을 통한 logistic regression, tree 기반 모형, 거리 기반 모형 등 다양한 분류 모델링 방식을 적용하였습니다.
그중 하이퍼 파라미터 세팅을 통한 XGBoost가 validation data 기준 accuracy 0.61, F1-score : 0.59, public test data 기준 F1-score : 0.48 을 달성하였습니다. (1등 대비 accuracy -0.04, f1-score -0.05)


이 외에도 [2개 변수만을 활용한 KNN], [pytorch 기반 DNN] 모델 등 [1위] ~ [6위]의 public 상위 모델링 방식을 차용해, 재학습 해보고 성능을 비교해 보았습니다.
아래는 public 2등 [2개 변수만을 활용한 KNN(k=1)] 모델의 성능확인을 위한 분류 바운더리를 시각화해본 결과입니다.

Part. 4) 학습 플랫폼 유저 유형 분석
part4 에서는 유저 데이터를 바탕으로 유저를 유의미하게 구분되는 유형군집으로 분류해보고, 각 군집별로 맞춤형 프로모션 전략수립을 통해 수익 증대 전략을 세우는데 유의미한 인사이트를 얻을 수 있을지 고민해봤습니다.
- DBSCAN
먼저 DBSCAN을 활용한 밀도기반 군집화를 실시했습니다.
이를 진행한 이유는, EDA 진행시 다수의 변수에서 이상치 그룹(학습관련 변수가 압도적으로 높은 데이터들) 이 대부분 구독을 연장하는 패턴을 파악하였기 때문이었습니다. 따라서 학습관련 변수가 높고 구독 확률이 높은 데이터들과 그렇지 않은 데이터를 구분한다면, 조금 더 뚜렷한 구독 연장여부에 대한 인사이트를 얻을 수 있지 않을까 했습니다.
유의미한 그룹 탐색을 위하여 70가지 이상의 hyperparameter 조합을 고려하였으며, 최적 그룹 탐색 조건으로 다음을 고려하였습니다.
1) 군집 안정성 (군집 간 데이터 비율, silhouette score)
2) 군집 간 유의미한 이분산성 (silhouette score)
DBSCAN을 활용한 최적의 군집 분류 결과로, 다음 두 그룹을 탐색할 수 있었습니다.
'학습 열의가 높은 그룹 A(-1)' vs '일반적인 학습 경향을 보인 그룹 B(0)'
"학습 열의그룹 A"는 비록 전체 데이터의 1% 만을 포함한 소수의 이상치 그룹이나, '평균 학습세션 유지시간', '고객 문의 이력', '선호 학습 난이도' 등의 변수에서 매우 높은 수치를 기록했으며 (학습 열의가 높다) 우리가 중요하게 살펴보고 있는 다음달의 '구독 연장률'이 그룹 B의 60% 대비 매우 높은, 연장률 80%이상을 기록하는 유저층이었습니다.
그러나 군집의 크기가 매우 작고, 탐색된 그룹이 강한 구독 연장층이므로, 학습 플랫폼 충성 그룹을 탐색했다는 인사이트 외에는, 이렇다한 효과적 마케팅 전략을 수립하기는 쉽지 않다고 판단됩니다.

- Ward Linkage
계층적 군집화 방식으로, 이산 변수와 연속 변수를 한번에 군집화에 활용할 수 있는 Ward linkage 방식을 활용하여 군집화를 실시하였습니다. 그리고, 최적 군집 갯수 탐색방식으로 아래와 같은 3가지 방식을 활용하였습니다.
1) Dendrogram 을 활용한 군집 안정성 판단
2) Silhouette Score 를 활용한 군집 안정성 판단
3) 각 군집간 target에 대한 개별 분류모델 적합을 통한 군집별 이분산성 증명 (<소비자 분류 논문>의 방식 차용)
3)번 방식은 '소비자 유형 분류' 논문을 차용한 방식으로, 각 그룹의 유저가 매우 이질적이라면, 각 그룹이 타겟에 영향을 미치는 요인 역시 서로 다를 것이라는 가정을 활용합니다.
3개 군집 - Basic구독 선호 그룹 A vs Premium 구독 선호 그룹 C vs 구독 연장 그룹 B
군집 수를 3개로 두었을 때,
'Basic 구독 형태', 상대적으로 낮은 '학습 완료 코스 수' 와 '커뮤니티 참여도' 를 보인 그룹 A,
'Premium 구독 형태', 상대적으로 높은 '학습 완료 코스 수' 와 '커뮤니티 참여도' 를 보인 그룹 C,
'평균 학습세션 유지시간'이 길며, 평균 이상의 '커뮤니티 참여도' , 매우 높은 '구독 연장' 비율을 보인 그룹 B
를 탐색할 수 있었습니다.
특히 구독 연장 비율 비교에서
그룹 A는 구독 연장 비율이 0.8%
그룹 B는 구독 연장 비율이 99.8%
그룹 C는 구독 연장 비율이 66.4%
로, 그룹별 구독 연장 비율이 눈에 띄게 차이가 났습니다.


특히 구독 연장 비율이 낮은, 구독 취소에 가장 취약한 그룹인 그룹 A의 유저 비율은 전체 대비 56%로, 이를 타겟팅한 구독 연장 프로모션을 진행할 때 매우 효율적인 구독 전환 효과를 누릴 수 있을것으로 판된됩니다.
구독 연장 여부 예측에 가장 좋은 성능을 냈더 XGB를 그룹 A를 대상으로 재학습 한 이후 Feature Importance 를 계산해 보았습니다. 이는 곧 그룹 A에게 있어 구독을 연장하는데 있어 가장 중요하게 작용하는 변수가 무엇인지 판단할 수 있는 근거가 됩니다. 그 결과, accuracy 61.1%, '평균 로그인 유지시간', '최근 학습 성취도', '평균 로그인 시간'이 가장 구독 연장 여부 예측에 유의미한 변수로 판별되므로, 그룹 A의 유저를 대상으로 '학습 플랫폼에 대한 지속적 접속 동기 생성' 및 '접속을 계속 유지할 수 있도록' 하는 것이 유의미하게 구독 연장률을 높일 수 있는 전략으로 활용될 수 있음을 시사합니다.
결 론
분석과정을 통해 실질적으로 "구독 취소 유저를 대상으로 재구독 프로모션 마케팅, 이를 통한 학습플랫폼 수익 증대" 라는 목표에 대입한다면 아래와 같은 분석결과를 얻을 수 있습니다.
1. 프로모션 전환을 통한 기대 구독 수입 계산 결과, '프로모션 전환률 최대화', '인당 구독 수익 대비 프로모션 비용 최대화', '구독 취소자 예측 모델의 특이도 최대화' 라는 목표로 분해할 수 있었습니다. 참고로, 프로모션의 구독 전환률에 대한 추정 은 추가적인 A/B test를 통해 예측 가능합니다.
2. '프로모션 전환률' 을 높이고자, 유저 세분화를 통해 타 그룹 대비 이탈확률이 3배 이상 높은 구독 취약 그룹 A 를 탐색할 수 있었으며, 이를 타겟 대상으로 구독 연장 프로모션 마케팅을 실시하는 것이 바람직함을 제안하는 바입니다.
본 분석에서 제시하는 방식으로는, ward linkage방식으로 구독자 그룹을 3그룹으로 분리하였으며, 학습 열의가 낮은 그룹 A 유저들을 대상으로 '꾸준히 접속할 수 있도록 하는 동기 부여', '접속 시간을 늘릴 수 있는 장치' 를 추가하는 프로모션을 진행하는 방안을 권장하며, 그 에시로 '출석 이벤트' 또는 'daily planner 작성 도우미' 와 같은 서비스를 추가할 수 있을 것입니다.
'프로젝트 > 캐글 경진대회 스터디' 카테고리의 다른 글
| [게임 데이터] 벽돌 깨기 게임 로그 분석 - 12개 맵 난이도 분류 (0) | 2024.06.25 |
|---|---|
| [DACON] "이커머스 고객 세분화 아이디어 보고서" - RFM/선호 카테고리/구매 패턴 기반 고객 세분화 전략 (0) | 2024.03.03 |
| [Dacon] "학습 플랫폼 이용자 구독 갱신 예측" .part4 (소비자 유형 분석) (0) | 2024.01.15 |
| [Dacon] "학습 플랫폼 이용자 구독 갱신 예측" .part3 (모델링) (0) | 2024.01.11 |
| [Dacon] "학습 플랫폼 이용자 구독 갱신 예측" .part2 (EDA) (0) | 2024.01.09 |