일반적으로 아래 두 개의 색상의 클릭률을 확일할때 초록색의 클릭률이 52%로 높으니
더 선호된다고 볼 수 있다.
A/B테스트는 두 수치가 통계적으로 유의미한 차이인지 확인하는 방법이다.
두 집단의 평균을 비교하는 방법
t-테스트
가설 -> 두 집단 간의 평균에 차이가 없다 ( 두 집단 데이터 차이의 평균 = 0 )
두 집단 간의 평균의 차이가 -2~2 안에 있다고 하면
통계적으로 두 집단 간의 차이가 없다고 본다.
두 집단간 비교 대상이 비율인 경우는 t-테스트를 사용할 수 없으며,
Fisher's Exact 테스트나 카이 제곱(chi square)테스트를 사용해야 한다.
남 , 여 두집단간의 클릭율 비교
남성이 여성보다 클릭율이 클릭율은 높다.
위 공식으로 모든 컬럼의 값을 구한다.
구한 값을 모두 더 하고, 그 평균을 구한다.
위 그림은 카이 제곱 분포의 그림이며 카이 제곱값이 3.84보다 크면 유의수준(p-value)가 0.05보다 작아지게 된다.
따라서 위의 계산된 카이 제곱 값이 8.33 이므로 p-value가 0.05보다 작기에 가설은 지지되지 않는다.
즉, 클릭률은 성별에 따라 차이가 있는 것이다.
( p-value > 0.05 : 두 집단 간 차이가 없다, p-value < 0.05 : 두 집단 간 차이가 있다. )
참고로 자유도에 따라 기준이 되는 x값이 변화된다.
'IT > IT-머신러닝(기초)' 카테고리의 다른 글
R 파이프 연산자 (0) | 2022.02.26 |
---|---|
장바구니 분석 (0) | 2022.02.26 |
로지스틱 회귀분석 (0) | 2022.02.26 |
의사결정 나무(Decision Tree) (0) | 2022.02.23 |
군집화-부분집합 (0) | 2022.02.16 |