프로비트(Probit) 모델을 사용한 구매의도 분석 실험기
실험 배경과 목적
마케팅 캠페인을 기획하거나 제품의 런칭 전후로 소비자의 반응을 예측하는 것은 매우 중요한 일입니다. 그중에서도 ‘구매의도’는 행동에 앞서 나타나는 중요한 심리적 지표로, 이를 정량적으로 분석할 수 있다면 마케팅 전략을 보다 정교하게 다듬을 수 있습니다.
이번 실험은 Probit(프로비트) 모델을 사용하여 소비자의 구매의도를 분석하고, 그에 영향을 미치는 요인들을 도출하는 데 목적이 있습니다. Logit 모델과 함께 이항 선택 모델(Binary Choice Model)로 자주 사용되는 Probit 모델은 확률분포 이론을 기반으로 하여 의사결정 확률을 추정하는 데 매우 효과적입니다. 이 글에서는 실험 설계부터 데이터 수집, 분석, 해석까지의 전 과정을 다루며, 실제 블로그 독자 분들이 따라할 수 있을 정도로 실질적이고 실용적인 예시를 제시하겠습니다.
실험 설계: 가상의 신제품 캠페인 시나리오
제품 컨셉: 건강기능식품 브랜드 ‘비타에너지’의 신제품, 고농축 멀티비타민
타겟층: 25~45세 직장인, 특히 건강관리에 관심이 많은 소비자층
광고 캠페인 종류:
- 기능성 강조형(“하루 한 알로 피로 타파!”)
- 감성 공감형(“당신의 하루가 소중하니까”)
- 가격 인센티브형(“지금 구매 시 30% 할인!”)
실험 대상자에게 위 광고 중 무작위로 하나를 노출시키고, 이후 구매의도를 Likert Scale로 응답받았습니다. (1=전혀 의도 없음 ~ 5=매우 강한 구매 의도)
데이터 이진화 및 모델링 준비
Probit 모델은 **종속변수가 이진(Binary)**일 때 사용합니다. 따라서 1~5점 사이의 구매의도 점수를 1/0 이진값으로 변환했습니다. 여기서는 4점 이상(즉, ‘구매할 의사 있음’)을 1로, 나머지를 0으로 설정했습니다.
df['intent_binary'] = df['purchase_intent'].apply(lambda x: 1 if x >= 4 else 0)이제 분석에 사용할 독립변수들은 다음과 같습니다:
- 광고 타입 (Categorical: 기능성, 감성, 가격)
- 나이
- 성별
- 기존 브랜드 인지도 (Yes/No)
- 건강기능식품 섭취 경험 유무
Probit 모델 개요
Probit 모델은 로지스틱 회귀(Logit)와 유사하지만, **누적 정규분포(Cumulative Normal Distribution Function)**를 사용해 의사결정 확률을 추정합니다. 수식은 다음과 같습니다:

여기서 $\Phi$는 정규분포의 누적분포함수(CDF), $X\beta$는 각 변수의 선형조합입니다.
모델은 statsmodels 라이브러리의 Probit()을 사용하여 학습시켰습니다.
import statsmodels.api as sm
X = sm.add_constant(df[['age', 'gender', 'brand_awareness', 'ad_type_encoded', 'supplement_use']])
y = df['intent_binary']
probit_model = sm.Probit(y, X)
result = probit_model.fit()
print(result.summary())주요 결과 해석
모델 결과를 통해 다음과 같은 인사이트를 얻을 수 있었습니다.
- 광고 타입:
- 기능성 강조 광고가 기준일 때, 가격 인센티브 광고는 구매의도에 통계적으로 유의미한 양(+)의 영향을 주었습니다.
- 감성 공감형 광고는 유의하지 않거나, 오히려 영향을 낮추는 경향이 있었습니다.
 
- 브랜드 인지도:
- 기존에 브랜드를 알고 있는 경우, 구매의도가 약 1.7배 정도 높을 확률이 있었습니다. 이는 강력한 브랜딩의 중요성을 시사합니다.
 
- 건강기능식품 섭취 경험:
- 건강기능식품을 평소에 복용하던 소비자들은 처음 접하는 사람들보다 구매할 확률이 약 2배 이상 높게 추정되었습니다.
 
- 나이와 성별:
- 나이는 약간의 부(-)의 관계를 보였으나 유의하지 않았으며, 성별은 유의한 변수로 나타나지 않았습니다.
 
마케터를 위한 실전 활용 포인트
- 광고 카피 선정 시, 기능보다는 가격 혜택 메시지가 구매의도에 보다 직접적인 영향을 줄 수 있음을 확인할 수 있었습니다. 이는 실제 캠페인 기획 시 참고할 만한 가치가 있습니다.
- 브랜드 인지도를 높이는 전략이 장기적으로 구매 전환율을 높이는 데 중요하다는 점을 다시 한번 확인하게 되었습니다. 광고 도달률만 높이는 것이 아니라 브랜드에 대한 노출 빈도를 전략적으로 설계해야 합니다.
- Probit 모델은 Logistic과 비교해 큰 차이가 없어 보일 수 있으나, 정규분포 기반 모델링을 선호하거나, marginal effect(한 단위 변화에 따른 영향)를 해석하고자 할 때 보다 직관적일 수 있습니다.
실험의 한계와 향후 과제
- 본 실험은 자가 보고식(Likert Scale) 데이터 기반으로, 실제 구매 행동과는 괴리가 있을 수 있습니다.
- 모델에 사용된 변수 외에도 소득 수준, 온라인 구매 경험 등 추가 요인이 고려되면 더 정밀한 모델링이 가능합니다.
- 향후에는 **선형 확률 모형(LPM), 로지스틱 회귀(Logit), 머신러닝 분류기(SVM, Random Forest)**와의 비교도 수행해볼 예정입니다.
마무리하며
Probit 모델은 통계적 기초가 잘 갖추어진 분석 방법이지만, 단순한 ‘모델 적용’을 넘어서 그 결과를 어떻게 마케팅 전략에 녹여낼 것인가가 핵심입니다. 구매의도는 단순한 설문 항목이 아닌, 브랜드와 소비자 간 감정적 연결의 신호이기도 하죠. 이번 실험은 정성적 요소를 정량화하고, 데이터 기반 의사결정을 내릴 수 있는 마케터의 역량을 키우는 데 작은 발판이 되었길 바랍니다.

'마케팅관련' 카테고리의 다른 글
| 마케팅 믹스 모형(Marketing Mix Modeling)에서 TV광고 효과가 과대평가되는 이유 (0) | 2025.05.21 | 
|---|---|
| 클릭률(CTR) 변화에 숨겨진 다중공선성(Multicollinearity)의 흔적 (0) | 2025.05.20 | 
| 전환율(Conversion Rate)의 신뢰구간 계산이 중요한 진짜 이유 (0) | 2025.05.17 | 
| '요인분석'을 이용한 소셜미디어 이용 패턴 분해 (1) | 2025.05.15 | 
| 표본 추출 편의성(Sampling Bias)에 따른 커피 브랜드 인식 왜곡 (0) | 2025.05.12 | 
 
										
									 
										
									 
										
									 
										
									
댓글