[iMOD(4)] 지표 도출

Jiwon Kim
|2023. 7. 26. 16:06

2023.07.20 - [Project] - 현상의 파악

 

현상의 파악

Data cleaning을 일단 해두고, 이제야 문제를 해결하기 위한 현상 파악 단계로 돌아간다. 2023.06.29 - [Project] - 나의 첫 데이터 분석기 영종1동이 주거밀집지역인가보다.. (출처: KOSIS, 지도 및 표 자체제

greenjade.tistory.com

를 정리하기 위해서 글에서 일부를 긁어오자면, 

 

// 그래서 내가 정말 알아서 정한  내 목표 는 

(3) 내 목표 : 과거 시행된 이력자료를 보면서 / 잠재적 수요자의 선호 요소를 추측 / 서비스의 향상을 위해 볼 key metrics 정하고 관찰 / 추후 서비스를 위해 수요를 예측하기 위한 개선하거나 더 필요한 데이터가 있을까 생각해보기 / 로 크게 3가지로 나뉜 것 같다.  // 

 

라는 목표를 세워두고, 컬럼별로 관찰을 했었다. 

 


위에서 "관찰한 점" 및 생각해 본 "해결해야 할 점" 및 "insight"는 다음과 같다. 

 

1. 호출의 수가 매우 일정 :


처음 도입된 서비스인데 도입시부터 종료시까지 1년 간 호출 시도 횟수가 변화가 없음. 어떻게 보면 꾸준한 수요를 의미할 수 있겠지만, 한편으로는 기존 이용하던 유저만 계속 이용한다 또는 새로운 유저가 유입되는 만큼 이탈자가 지속적으로 발생한다고 해석될 수 있겠다. 

 

+  신규 가입자 수의 변화 추이 관찰

 

2021.2 ~ 2022.7 일별 신규 가입자 수 변화 추이
2021.2 ~ 2022.7 누적 가입자 수 변화 추이

 

초반에 급격히 많이 50-60명/일로 가입했으나 시간이 지나자 10-20명 대로 일별 신규 가입자수가 감소하였다. 

 

월별 가입자수로 보니 확실히 감소 추세인 것이 보인다.

 

 

+ MAU (Monthly Active Users) 관찰 _ 호출 기반

 

서비스 이용가능 날이 30일보다 적었던 2021년 2월, 5월, 7월, 2022년 7월을 제외하고 다른 모든 시기는 MAU가 거의 일정하게 3000명이 넘었다. 2022년 2월, 3월에 3200명/3300명대로 잠시 감소했다가 4월부터 3500명대로 회복, 6월에는 최대 MAU 3722명을 기록했다. 

 

+ 그렇다면 실제 i-MOD를 통한 이동 수의 변화는?

 

단순히 호출이 아니라, 실제로 탑승하고 하차까지 완료한 trip의 수를 월별로 집계해 보았다. MAU분석과 마찬가지로 30일 모두 운영하지 않은 일부 달을 제회하고는 항상 8,500건이 넘었다. 다만 2021년 10월과 2022년 2월에 다른 시기보다 500-600건 적게 탑승 횟수가 관측됐다. 

 

+ 고객 이탈률? 

 

유저별로 첫 호출 날과 마지막 호출 날 사이의 간격을 'retention'이라고 정의하고 분포를 본 결과, 대부분의 유저들이 일회성으로 서비스를 사용하고 지속적으로 i-MOD를 사용하지 않음을 알 수 있었다. 

 

 

 

 

 

 

 

이에 더불어 얼마나 지속적 서비스를 이용하는지 그 비율을 월 단위로 계산해보면 어떻게 되는지

알아보고 싶어서 
Customer Retention Rate (해당 월까지 계속 이용하던 고객 수 - 해당 월에 처음 사용한 고객 수) / (해당 전 월까지 계속 이용하던 고객 수) * 100 (%)로 정의하고 계산해보았다.

Churn Rate 는 이탈률로, Customer Retention Rate의 반대가 될 것이다. 

statista 라는 사이트에 의하면 Automotive & Transportation 서비스의 경우  고객 유지율이 83% 정도가 된다고 한다. ( https://www.statista.com/statistics/1041645/customer-retention-rates-by-industry-worldwide/ )  본 서비스가 한참 활성화 된 시기에는 88-89%의 고객 유지율을 유지했으니 다른 서비스와 비슷하거나, 심지어는 더 나았다라고 할 수도 있다. 
하지만 !! 이 숫자만 보고 좋다고 할 수 없는게, 후반부로 갈수록 이탈률이 급증 (2022년 3월 ~ 5월): (13%에서 28%)한다는 점과,  서비스에 처음 유입된 고객의 수만큼 매달 마지막으로 이용하는 고객들이 점점 늘고 있었기 때문이다. 대부분의 고객이 일회성으로 서비스로 이용하였다는 또 다른 근거가 될 수 있다. 


2. 호출 했다가 마음 바뀌는데 걸리는 시간이 단 1~2초? :


call 후 cancel 까지 걸리는 시간을 계산했을 때 99%가 (0초 포함) 1분 이내에 호출을 취소했으며 대부분 2초 이내였다. 
이 서비스 유저들이 자의로 이렇게 짧은 시간 내에 탑승을 포기한다는 사실이 잘 이해가 안가서 자세히 배차 상태 및 상세를 살펴보았다.

 

 

이 flow 따라서 다시 정리해보니, 초기 호출 실패 (자의로 취소한 것이 아니라, 취소 '당한' 경우)가 너무 많이 포함되어 있었음을 알 수 있었다. 따라서 해당 이력들을 제거하고 자의로 취소한 경우 (배차예상정보 뜬 후 호출 취소 선택 + 배차 완료 후 호출 취소 선택) 만 따로 데이터를 추출했다. 결과로는, 

[기존 결과] : 90%의 유저가 1분 이내에 호출을 취소했으며 1초 이내가 50%, 2초 이내가 75%이었다. 

[이번 결과] : 82%의 유저가 본인의 의지로 1분 이내에 호출을 취소했으며 9초 이내가 50%, 21초 이내가 75%이었다. 
기존의 분석보다 훨씬 유의미한 결과가 도출되었다. 유저들이 스스로 취소하기까지 걸리는 시간은 거의 20초 정도 되는 것 같다. 

 

+ 추가로 이전 글에서 한 사람이 원하는 정류장에서 승차하고 하차하는 것을 하나의 이동수요로 보았을 때 그 수요별로 묶어서 총 대기한 시간도 살펴봐야 겠다고 했는데, 그 결과 70%의 유저의 총 대기시간이 1초 이내, 50%의 유저는 18초, 75%의 유저가 2분까지 기다렸다 취소했음을 알 수 있었다. 


이와 같이 취소한 이유를 살펴보면 탑승취소 : 승차시간 부족 37%, 승차시간 지연 18%, 다른 교통수단 이용 17%, 개인사정 16% 이었다. 
여기서 첫번째 이유인 <승차시간 부족>을 제외하면 비슷한 이유인 것 같은데 (기다리는 시간이 길어서 취소) 승차할 시간이 부족하다는 것이 정확히 어떤 의미인지 알 수 없어서 아쉬웠다. 다른 이유들의 두 배에 해당하는 이유이기 때문에 해당 이유에 대한 정확한 파악을 바탕으로 서비스 개선이 필요해 보인다. 

 


3. 현저하게 공급자 측면의 기록이 부족한 이력자료

 

수요와 공급이 어떻게 균형을 이루고 있는지 살펴보려면 공급자 측의 자료도 필요하다. 예를 들어, 한 시간당 버스 한 대가 제공한 ride의 수라던가, 버스 활용 비율 (운행 중 얼마나 많은 승객을 태우고 다니는지) 등의 자료가 있다. 하지만 본 데이터에서는 탑승정보 자료인데 이 탑승자가 어떤 버스를 탔는지 (몇 번 버스)와 같은 정보가 전혀 나와있지 않아 공급 측면에서 어떻게 운행되고 있는지 알 수 없었다. 
결론 : 수요 vs 공급 같이 봐야 하는데 수요에 치중된 데이터라 아쉬움

개선점(제안) : 실제 운행된 버스의 대수가 10대 이하로 매우 적었으므로, 유저가 차를 탑승 시 몇 호차를 탑승했는지 기록해둔다면 서비스의 공급이 원하는 수요시간대 및 장소에 적절히 제공되고 있는지 비교할 수 있을 것 같다. 


4. 경로의 효율성

 

경로의 효율성 정도를 분석하기 위한 데이터로는 이동시간이 있겠다. 원하는 정류장에서 승차해서 원하는 정류장에 하차하는데까지 걸린 시간을 보면 되는데, 이전 글에서 'ivt'로 정리한 부분이다. 실시간으로 서비스를 이용하고자 하는 유저들이 호출하면 예정경로를 벗어나 이동할 가능성이 있고, 이에 따라 원래 예정도착시간보다 늦어질 수 있다는 불확실성은 본 서비스의 매력도를 떨어뜨린다. 
따라서 다음에 이러한 서비스를 시행하여 이력자료를 모은다면!  
개선점(제안) : 실제 탑승하기 전에 유저에게 뜨는 "예정 도착 시간"을 기록해두고 이를 "실제 하차 시간"과 비교할 수 있다면 서비스 개선에 도움이 될 수 있을 것이라고 생각한다. 

 

 


추후 이 데이터를 머신러닝 모델에 적용하여 수요를 예측할 수도 있겠고, 수요 공급의 매치를 위한 서비스 방법을 고안해낼 수도 있을 것이다. 하지만, GIGO라고... 좋은 데이터가 아니라면 아무리 좋은 모델, 생각을 갖더라도 올바른 결과를 도출하지 못할 것이다. 따라서 각 컬럼별로 관찰했을 때 의문이 들었던 점들 / 정확한 근거를 바탕으로 한 각 Value의 설명 / 필요한 데이터 feature의 보충이 모두 이뤄진다면 이후 예측을 위한 더 좋은 데이터가 될 수 있을 거라는 생각이 들었다. 

'Project' 카테고리의 다른 글

[청년주거(2)] 문제정의  (0) 2023.07.31
[청년주거(1)] 현상의 파악  (0) 2023.07.30
[iMOD(3)] 현상의 파악  (0) 2023.07.20
[iMOD(2)] Data Cleaning 부터  (0) 2023.07.20
[iMOD(1)] 나의 첫 데이터 분석기  (0) 2023.06.29