Salesforce의 고객관리 시스템 → 이렇게 데이터를 모으는 기업들이 얼마나 써드파티 데이터를 잘 관리하는가? 신뢰성이 중요하다
데이터 처리 비용 < 처리 후 창출할 가치가 되어야 한다
원유 처리하면 경유 중유 등등 정해져있는 norm이 있지만, 빅데이터는 아니다. 기업의 80% 이상의 데이터가 분석도 되지 않은 채 방치되어있다…
다른 부서를 도울 때 너나 잘해 소리를 듣지 않게 협업이 중요하다
SI vs Product: 재사용성으로 인한 부가가치 창출 가능성. SI는 그 서비스 한정 끝이지만, Product는 다른 여러 곳에서도 부가가치를 창출할 수 있다.
모든 빅데이터는 Buisness Case에서 시작한다. 결국 목적은 Problem을 해결해서 가치창출을 하는 것.
Velocity, Volume, Variety, Veracity(진실성. 데이터에 대한 검증, 가설에 대한 검증: 이게 안되면 쓸데가 없다), Value
메모리 관리도 정말 중요하다.
놀라울 정도로 완벽하게 병렬 실행을 하는 구조 ㅋㅋ
만약 컴퓨팅 유닛간에 통신이 필요하다면 nearly Embarrassing. → Master는 모든 Slave로부터 결과를 받을 때까지 동기적으로 기다려야 하는 단점이 있다.
Task parallelism vs Data parallelism
작업을 따로따로 처리한다 vs 똑같은 태스크로, 데이터를 따로따로 처리한다 (여기가 빅데이터)
멀티쓰레딩은 데이터를 공유하기 때문에 I/O 바운드 태스크 → CPU가 놀고 있을 일이 많다.
병렬 실행은 자원을 나눠가지기 때문에 메모리 관리를 필수적으로 해야 한다.
멀티프로세싱은 CPU 바운드 태스크 → 완벽하게 분리된 프로세스들이 여러개니까. 멀티쓰레딩처럼 메모리뿐만 아니라 CPU 관리까지도 해야한다.
파이썬은 GIL때문에 멀티쓰레딩 안됨. + 멀티 프로세스간 메모리 공유 방법을 알아보자.