데이터를 금전적 가치가 있는 정보로 바꾼다. 처리 비용이 비싸다는건 그 비용보다 더 가치있는 정보가 나와야 하는 ‘투자’ → 비용이 많이 들어가니 가치가 바로 나와야 한다. 취업할땐 데이터로 돈을 이미 벌고 있는 회사를 가자
문제 정의가 잘 되면 해결은 금방 한다. 솔루션도 생각보다 간단할 것이다. 문제 정의를 잘 하자.
heuristic 의사결정은 빠르지만 편향적일 수 있으니, 근거 기반의 의사결정을 해야 한다!
데이터 엔지니어가 되어 의사결정을 내리는데 도움이 되는 Actionable Data를 주자.
모바일게임에서 CPI와 LTV를 고려하여 어느 광고 네트워크를 쓰는게 좋은가? → 이거 말고도 다른 메트릭을 쓸 수도 있고. 여튼 합리적 의사결정을 돕고 증명하고 쉽게 설명하는 역할을 한다.
데이터엔지니어는 raw data를 usable data로 바꾼다. → 메트릭을 가지고.
데이터 분석가는 데이터로 인사이트를 만든다.
데이터 사이언티스트는 위 둘을 합쳐서 미래를 예측하는 역할
BA, BI는 이 인사이트와 예측을 가지고 이익이 되는 방향의 의사결정을 한다.
이 생태계 안에서 우리는 raw data를 수집하고, 프로세싱하고, 저장하고 quality data로 만들어서 ‘보안상 안전’하게 진행해야 한다.
data engineering은 팀스포츠이다. 진짜 말을 많이 해야 하는 직군이다. ‘이거 만들어주세요!’ 하는 요구사항도 명확히 해야 함.
은행에서 입출금 db는 고가용성이어야 하고 중요도가 높지만, 계정 db는 껏다 켜도 됨
문제 정의도 사람마다 다르고, 내가 쓴 instruction도 모든 사람이 동일하게 받아들이기는 불가능하다. → Trial and Error을 최대한 많이 해보자.
uncertainty가 높은 상황에서 trial and error을 가장 효율적으로 하는 방법은 한 줄씩 instruction을 줘서 맞는지 검증한다. + 모든 instruction을 줬을 때 첫 줄부터 틀리면 나머지 실험은 의미가 없어져 낭비가 심함 물론 실험 비용이 존재한다면 달라질것
나중에 실험할 때도 작은 데이터셋 표본으로 실험을 많이 해보자.
데이터엔지니어에게 필요한 역량?