hadoop 3.4.1? 버전 1도 2도 너무 다른 속성이다. 버전에 따른 config들도 다 다를 것

버전 2에서 컨테이너 개념이 들어왔기 때문에 기존 /hadoop/tmp 내에 전부 저장하던 것을 local directory와 log directory로 분리해줬다.

docker container 내에 저장하는 것도 dfs.datanode.data.dir에 저장하는 것도 결국에는 로컬디스크에 저장하는 것이지만, 컨테이너 종료시 날라가는지 안날라가는지의 차이이다.

Use case가 있으니까 프로그램이 만들어진다

필요가 생기니까 연구가 이루어지고, 마침 기술이 새로 발전하니까 구현이 되어서 프로그램이 만들어진 것

Apache Spark

하둡은 저렴한 파일시스템을 병렬적으로 처리한다.

스파크는?

거대한 데이터셋을 빠르고 유연하게 처리하는것

2000년도의 Hadoop vs 2010년도의 Spark는 문제 상황이 다르다.

web → streaming으로 데이터도 기하급수적으로 많아졌고, 컴퓨터 성능도 좋아짐

Resource Management layer에 있는 모드들을 외우자.

Standalone Cluster: 하나의 클러스터 안에 다 있는거. Cluster Manager랑 아무튼 다름

Driver: DAG로 Operation flow와 RDD state를 저장하여 context 저장

Executiors: Worker 노드로 연산 수행

Driver와 worker node는 반드시 네트워크로 통신하고, 연결되어 있어야 한다.

worker가 us-east에 있고, driver가 seoul에 있다면 속도가 훨씬 느려질 것. 같은 스위칭 허브 내에 있어야 빠름

client deploy mode: 보안이 장점이지만 죽으면 job이 다 날라가니까 client 관리를 잘해야 한다.

client deploy mode: interactive applications, client에서 직접 실행시키고 결과를 바로 볼 수 있으니 디버깅에 유리하다. 하지만 client가 연결이 끊기면 job은 무조건 실패