데이터 드리븐 기획 과제 회고
- 1. 데이터 분석 (0) 전제조건현재 글
- 2. 데이터 분석 (1) 기술 이슈 분석완료
- 3. 데이터 분석 (2) 변수별 완독률/이탈시점 영향 분석완료
- 4. 데이터 분석 (3) 허들 분석완료
- 5. 데이터 분석 (4) 추천 클릭 퍼널&여정 분석준비중
- 6. 데스크 리서치: 연재작 플랫폼 vs 완결작 플랫폼준비중
데이터셋상 사용자 여정 정의
데이터 로그를 오류 없이 분석하기 위해선 로그가 의미하는 사용자 여정을 정확히 알아야 한다.
추천 관련 컬럼의 순서 파악
예를 들어 이번 과제에서 주어진 컬럼을 보면,
- 추천 eBook 클릭 여부
- 유입 채널 중 '추천'
- 하차 사유 중 '추천 실패'
이렇게 '추천'이 총 3번 등장했다. 두 가지 순서가 가능했다.
- 추천 eBook 클릭 -> 추천 유입
- 추천 유입 -> 추천 eBook 클릭
먼저 무엇이 무엇의 필요조건이고 충분조건인지 파악해보았다.

추천 eBook 클릭이 추천 유입의 필요조건이었기에, 1번이 맞는 순서였다. 즉 사용자 여정을 가정해보자면
- 추천 eBook 클릭 -> 해당 도서를 그대로 열람 = 유입 채널이 '추천'임
- 추천 eBook 클릭 -> 추천 페이지에서 빠져나와 다른 경로로 책을 다시 선택하여 최종적으로 열람 = 유입 채널이 '추천' 외의 다른 것임
이다. 이것을 전제로 데이터 분석을 시행하였다.
'추천 실패' 하차 사유에서 '추천'의 의미
하차 사유에서 말하는 '추천 실패'란 무엇을 뜻하는 것일까? 대충 컬럼명만 봐서는 유입채널이 추천인 경우 추천이 별로면 추천실패를 선택했을 것 같지만, 그렇지 않았다. 유입 채널이 추천이 아닌 경우에도 '추천 실패'를 응답한 유저들이 많았다. 이 유저들은 추천 eBook 클릭 여부가 True인 유저들이었다.

따라서 '추천 실패'에서 말하는 '추천'은 '추천 eBook 클릭 후 나오는 추천 도서'였다.
다른 채널로 유입됐으면서, 하차 사유가 '추천 실패'라고?
데이터셋상, 유입 채널은 도서 열람 직전의 여정이다. 예를 들어서 추천 eBook을 클릭했더라도 그 페이지를 나가서 홈 메인의 배너에 올라온 도서를 클릭하여 최종적으로 그 도서를 열람하였다면, 유입 채널은 '추천'이 아닌 '홈메인배너' 이다. 그런데 하차 사유를 '추천 실패'라고 응답한 유저들이 있었다.
지금 생각해보면 중도하차자들 중에 '추천 도서를 열람하지도 않았으면서 추천 실패로 하차했다고 응답한 유저'들의 하차사유는 이상치 처리했어야 할 것 같은데, 아쉽게도 과제 당시에 그렇게 하진 않았다. (또는, 추천받은 책을 바로 열람하진 않았지만 결과적으로 그 책을 열람하게 된 케이스라고 해석했어도 괜찮았을 듯)
대신, '추천 실패'는 '진짜 추천 실패'가 아닐 수'도' 있고, 오히려 '추천'으로 유입된 유저들이 '지루함'이나 '너무 긺'을 하차 사유로 선택했다면 그것은 '진짜 추천 실패'인 것으로 해석했다.

'급한 일' 중도하차자의 처리
‘급한일’로 하차했다고 밝힌 유저들은 총 65명으로, 데이터셋에서 6.5%를 차지한다. 꽤 큰 비율이다.
급한 일로 하차한 유저들은 분석 시 많은 고려가 필요하다. 급한 일은 서비스 밖의 영역이기 때문이다. 또한 나는, 응답설문 설계 측면에서 ‘급한 일’은 ‘급한 일로 인해 하차한 유저들의 특성’을 알아보기 위해서라기보다는, 하차 사유 데이터의 오염을 방지하기 위해 추가된 항목으로 보았다. 그래서 다음과 같은 기준으로 제거하였다.
