데이터 드리븐 기획 과제 회고
- 1. 데이터 분석 (0) 전제조건완료
- 2. 데이터 분석 (1) 기술 이슈 분석완료
- 3. 데이터 분석 (2) 변수별 완독률/이탈시점 영향 분석현재 글
- 4. 데이터 분석 (3) 허들 분석완료
- 5. 데이터 분석 (4) 추천 클릭 퍼널&여정 분석준비중
- 6. 데스크 리서치: 연재작 플랫폼 vs 완결작 플랫폼준비중
여기부턴 본격적인 데이터분석이다. 변수별로 완독률과 이탈시점에 미치는 영향력을 분석하려고 카이제곱 검정을 실시해 데이터 분석에 들어가는 공수를 줄이고자 했다.
완독률 vs 이탈시점
과제의 목적은 완독률이지만 이탈시점에 대한 분석도 진행하고자 했다. 어느 시점에서 이탈하는지에 따라서 문제 개선의 방향이 완전히 달라질 수 있기 때문이다. 둘 다 급한 일로 중도이탈한 사용자는 제외하고 진행했고 급한 일이 있어도 후반에 하차했으면 완독자에 포함하였다.
완독률은 (후반 이탈수)/(전체 이탈수)로 계산했다.

이탈 시점 분석
이탈 시점은 좀더 심층적으로 히트맵을 이용해 분석했지만 변수를 3개쯤 엮으니 샘플수가 적어서 힘들었다. (변수별 응답이 3개씩이라고 해도 3의 3제곱 즉 27개의 소집단이 생겨버린다)
페르소나를 도출하려고 시도했던 건데, 나의 역량 부족인지 어떤 페르소나를 도출해도 결국 그 페르소나를 위한 해결책이나 전체 유저를 위한 해결책이나 차이가 없고 더 많은 데이터가 있어야 통계적으로 유의한 분석을 할 수 있을 것 같아서 포기했다.
그리고 이탈 시점은 전체 변수에 대해서 수작업으로(사실 행렬만 내가 만들어 넣은거고 for문과 함수 딸깍으로 한 번에 수십개씩 히트맵 만듦) 진행했다.
이탈 시점 분석을 모든 변수에 대해 별도로 시행한 이유
카이제곱검정에서 귀무가설을 기각하지 못한 변수라도 히트맵 분석을 시행헀다.
카이제곱검정은 특정 변수의 전체적인 영향력을 검정하는 것이고, 사실 유의미하지 않은 변수로 나왔다고 하더라도 참고가 필요하다. 예를 들어, 장르가 이탈 시점에 영향을 주지 않고 '이탈사유'가 높은 영향력을 미친다 하더라도 '장르별로' '이탈사유의 양상'이 달라질 수 있다.
예를 들어서 특히나 '지루해서'와 '일러스트가 별로라서'가 중반부 하차를 유발한다고 해보자. 그런데 소설에서는 전자가, 웹툰에서는 후자가 많이 발생할 수 있다. 우연찮게 '지루해서'와 '일러스트가 별로라서'의 이탈 패턴이 비슷하다면 이런 시나리오가 탄생하는 것이다.
(그런데 생각해보니 이 내용을 기획서에 안 넣었네... 그래도 기획서는 통계학교실이 아니니 뺴는 게 맞았을지도)
장르별 이탈 시점 분포
이런 히트맵이 나왔는데 별 쓸모는 없었다. 일단 50샘플 미만의 소집단이 나오면 눈이 동태가 된다... 경제/시사에서 초반 이탈이 많이 일어나는 것으로 관찰이 되었지만 어차피 카이제곱검정에서 그 차이가 유의미하다 나오지 않았다. 그나마 샘플수가 많은 소설과 웹툰, 자긱계발의 경우 이탈시점별 차이가 크다고 느껴지지 않았고 장르별 이탈시점이 달라지는 것은 서비스 외적인 요소가 많을 것 같아서 제외했다. 이 결과에 기반해 더 데이터분석을 진행할 자신이 없었다.

사실 뭐 소설은 2/3가 극초반~초반에 이탈하기 때문에 소설 장르의 특성상 뭐 기승전결에서 전(클라이맥스)이 재미없을 것으로 예상된다거나, 장르적으로 더 높은 몰입감이 요구된다거나, 초반부만 봐도 글 퀄리티 견적이 나와서라거나 하는 다양한 추측은 가능하다. 다만, 이러한 추측들에서 근거를 찾을 수 없었고, 연구결과도 찾기 힘들었다. 게다가 과제로 주어진 서비스는 실제로 존재하는 서비스가 아니기에 이 서비스가 컨텐츠를 유통하는 데에 어떤 기준을 가지고 있는지도 정해져 있지 않아서 허공에 주먹질을 하는 기분이었다.
이탈 시점별 장르*이탈사유 교차분석
아래 그래프들은 급한일 중도하차자를 제외하지 않고 도출했던 히트맵이었던 것 같은데 그래도 꽤나 재미있는 데이터가 나왔다. 자기계발 유저들 극초반 UX불편 이탈이 많이 관찰된 것이다. 초반 이탈은 자발적인 이탈 비율이 높았다.


그런데 여기까지 돌려놓고, '그래서 뭐?'라는 생각이 들었다. 일단 해당 집단 샘플수가 너무 적었다. 자기계발 장르 특성상 UX 불편이 치명적이라는 결론에도 도달할 수 있었고, 자기계발 장르 유저의 특성상 UX 불편 저항성이 떨어져서라는 결론에도 도달할 수 있었다. 그런데 그뿐이었다. 주어진 자료가 데이터셋뿐이다 보니 그 어떤 가설도 그냥 상상의 나래처럼 느껴졌다. 물론 데스크 리서치를 하고 해서 설득력 있게 논지를 전개할 수도 있었겠지만 마음 속 깊은 곳에 '근데 너 이 서비스 어떻게 생겼는지도 모르잖아... 네가 그냥 설득하기 좋게 가정하면 땡이야?'라는 의구심이 계속 들 것 같았다. 그래서 패스했다.
그리고 위의 히트맵은 그래프별로 색상 매핑을 minmax로 해서 차이가 극단적으로 느껴지는 것뿐이지, minmax를 0-100으로 하면 차이가 커보이지도 않았다. 자기계발 안에서야 UX불편과 자발적사유의 차이가 커보이지만, 소설이나 웹툰과 2%p밖에 안 나는데? 스스로가 설득되지 않았다.
이게 페르소나 분석에서 어려운 점인데, 페르소나 A를 정해서 딥다이브하다보면 '페르소나 A는 이래!'라는 결론이 무조건 나오게 된다. 그런데 페르소나 A를 제대로 분석하려면 사실 다른 페르소나들과 비교를 해야하는 것이다.
지난 서비스 숙련 과제에서야 이미 페르소나별 특성이 명료하게 정해져 있었지만 이번 과제는 그렇지 않았다. 페르소나를 내가 정의해야 했고, 장르를 거기에 끼워넣는 건 조금 꺼려졌다. 예를 들어 소설 독자의 특성을 '정의'하려면 소설 독자를 비소설 독자와 또 '대조'해야한다. 그런데 또 비소설 독자와만 비교하면 안 된다. 의외로 또 웹툰 독자와 비슷한 특성을 가지고 있는데, 웹툰 독자를 비소설로 단순히 취급해서 평균내어지는 바람에 그게 가려질 수 있기 때문이다. 그런데 이런 분석을 수행할 자신이 없었다.
기기 화면 설정별 이탈시점 분포 분석 (+연령대)

기기 화면 설정별로도 분석을 시행했는데 40대 이상 유저들은 다크 모드에서, 2030 유저의 경우 커스텀 모드에서 완독률이 높았다. 후.. 근데 이것도 사실 뭔가 더 나아가기가 어려웠다. 이런 것은 UT나 추가 로그 등을 통해서 심층적인 사용성 분석이 필요한 영역 같았다. 라이트모드의 높은 이탈률도 라이트 모드 자체의 문제라기보단 상대적으로 서비스 숙련도가 낮은 신규 유저들의 서비스 충성도가 낮아서 or 서비스 숙련도가 낮은 유저들의 서비스 이용에 인지자원이 소모되어서일수 있었다.
변수 조합별 완독률 분석
기기 유형 * 구독 플랜별 완독률 교차분석
기기 유형과 구독 플랜별 완독률 차이는 예상대로 극명하게 나타났다. 특히나 응답 가짓수가 각각 3개씩이라 각 소집단 샘플수가 적지 않아 마음에 들었다. 그런데 제외했다. (아예 기획서에 넣지도 않ㅇ)

나는 이 결과를 월간구독은 중도이탈에 대한 부담이 없기 때문에 적극적인 탐색을 하는 것으로 해석했다. 반대로 단권 결제 유저들은 '재미가 없어도' 책을 끝까지 읽어야 하는 심리적 이유가 있거나, 명확히 해당 책을 완독하겠다는 의지를 가지고 책을 구매하는 독자들이니 완독률이 높게 나타나는 건 놀랍지 않았다.
그런데 그 다음이 문제였다. 논리는 알겠어. 그래서 내가 무엇을 해야 하는데? 대답이 안 나왔다. 나는 밀리의 서재를 2년째 이용하는 유저다. 나의 경험을 일반화하면 안 되겠지만, 내 소비행태를 돌아보았을 때 나는 책을 매우 자주 '찍먹'한다. 그런 경험을 통해서 나에게 맞는 책을 찾아간다.
사실 내 경우뿐만 아니라 많은 ‘무제한 이용’ 구독 상품은 이용자가 콘텐츠를 선택하는 데 느끼는 부담을 낮춰준다는 점을 강점으로 내세운다. 마음에 들지 않으면 언제든지 다른 콘텐츠로 넘어갈 수 있다는 것, 즉 잦은 이탈이 가능하다는 점 자체가 셀링포인트가 되기도 한다.
물론 완독률이 높다면 더 좋을 수 있다. 하지만 이 관점에서 생각하기 시작하니 한 가지 의문이 생겼다. 월간 구독 유저의 낮은 완독률을 '문제라고 정의'할 만한 근거가, 주어진 데이터셋에 존재하는가??
이번 과제에서 제공된 데이터는 유저 1천 명의 단일 열람 기록이었다. 즉, 각 유저가 특정 콘텐츠를 한 번 소비한 결과만 볼 수 있는 구조였다. 하지만 ‘잦은 이탈’이 문제인지 판단하려면, 유저 한 명이 일정 기간 동안 어떤 패턴으로 콘텐츠를 소비했는지를 봐야 한다. 예를 들어 월간 구독 유저의 완독률이 5%라고 하더라도, 하루에 10번씩 다양한 책을 탐색하고 그중 일부를 완독한다면 이야기는 완전히 달라진다. 한 달에 15권을 완독하는 사용자라면, 완독률 5%는 오히려 적극적인 탐색의 결과일 수 있다.
즉, 완독률이라는 단일 지표만으로는 ‘잦은 이탈’이 부정적인 현상인지, 아니면 구독 모델의 특성과 맞닿아 있는 자연스러운 소비 패턴인지 판단하기 어렵다. 이를 구분하려면 유저 단위의 누적 행동 데이터가 필요하다. 이번 데이터셋으로는 그 맥락을 확인할 수 없었고, 그래서 성급한 해석을 내리는 대신 한계를 인정하는 쪽을 택했다. (그런데 이 의사결정도 기획서에 안 넣음... 분석 결과 자체를 안 넣었으니 읽는 사람 안 헷갈리게 하기 위해서 뺄 수밖에 없었음)
또는 주어진 데이터셋에 등장한 책들의 인기도서 여부가 주어졌다면 보다 다양한 분석이 가능했을 것 같기도 한데 그렇진 않았기에 더 분석을 진행하기가 어려웠다.