뉴욕 택시 데이터와 날씨 데이터로 use case를 정해서 해보자.
날씨 데이터 적용: 2024년 1월 ~ 6월에 날씨별로 택시 이용자 수, 거리, 매출 차이를 구해보자.
→ 날씨별로? partially cloudy, overcast 등 여러 키워드가 있는데 간단히 맑음, 흐림, 비/눈 세 가지 카테고리로 나눠보려고한다.
Use case: 2022년 3월 말에 Uber가 Yellow Cab과 제휴를 맺어서 Uber 내에서 yellow cab도 배차가 가능하다는 소식을 들었다. 이게 근데 2024년 초에 yellow cab에 대한 불평불만이 있는 글들이 레딧에 몇 개 보여서 그 동안 어떤 일이 있었나 알아보는 jupyter 노트북을 만들어보았다. 3월에 시범 운영, 여름에 정식 출시라고 하는데 정식출시를 했다는 기사가 안보여서 어떻게 된 건지 모르겠다.
데이터는 2022년 3월 기준 -6개월인 2021년 10월부터, 2024년 초 +6개월인 2024년 6월까지의 2년 9개월 어치 데이터를 사용했다. 구간을 세 개로 나누었는데, 21년 10월 - 22년 3월을 uber 제휴 이전 대조군, 22년 4월 - 23년 12월을 uber 제휴 이후 변화 구간, 24년 1월 - 24년 6월을 불만이 제기된 이후 변화 구간이라고 정의했다.
분석 타겟은 yellow cab, uber 각각의 매출 변화, 한 달마다 지역별 이용 횟수 변화, 한 달마다 이용자 수 변화를 보려고 한다. 부정확하지만 user ID를 일일이 제공하지 않기 때문에 pick up 장소 및 drop off 장소의 개수로 이용횟수를 짐작하려고 한다. 이미 고정적으로 택시를 타는 사람들이 존재한다고 가정하면 특정 장소에서 택시를 이용한 사람 수가 늘어날수록 그 지역에 신규 유저가 늘었다고 생각할 수 있다.
일단 한 달을 기준으로 넓게 잡아보고, 큰 차이가 없다면 일주일 단위로 줄여서 변화를 더 자세히 보려고 한다.
자율주행 팀활동: