Hadoop Cluster (하둡 클러스터)
하둡 클러스터란 무엇입니까?
Apache Hadoop은 오픈 소스, Java 기반 소프트웨어 프레임워크이자 병렬식 데이터 처리 엔진입니다. 하둡을 이용하면 빅데이터 분석 처리 작업을 작은 크기의 작업으로 분해하여 알고리즘(예를 들어 MapReduce 알고리즘 같은)을 사용하여 병렬식으로 수행할 수 있고, 그런 다음 하둡 클러스터에 배포하면 됩니다. 하둡 클러스터란 네트워크로 서로 연결된 일련의 컴퓨터('노드'라고 함)를 말합니다. 이렇게 한데 모아서 빅데이터 세트에서 이런 종류의 병렬 연산을 수행하도록 한 것입니다. 하둡 클러스터는 여타 컴퓨터 클러스터와는 달리 대량의 구조적, 비구조적 데이터를 분산형 컴퓨팅 환경에 저장하고 분석하는 데 특화되어 있습니다. 이외에 하둡 에코시스템은 고유한 구조와 아키텍처를 가지고 있어 다른 컴퓨터 클러스터와 다릅니다. 하둡 클러스터는 서로 연결된 마스터, 슬레이브 노드 네트워크로 구성되어 있습니다. 노드는 고가용성, 저가 상용 하드웨어를 활용합니다. 선형적으로 확장하여 볼륨 수요에 따라 신속하게 노드를 더하거나 뺄 수 있다는 점 때문에 크기가 무척 다양한 데이터 세트를 다루는 빅데이터 분석 작업에 적합합니다.
하둡 클러스터 아키텍처
하둡 클러스터는 하둡 분산형 파일 시스템 전체에 걸쳐 다양한 작업을 오케스트레이션, 실행하는 여러 마스터 노드와 작업자 노드로 구성된 네트워크로 이루어져 있습니다. 마스터 노드는 보통 NameNode, Secondary NameNode와 JobTracker 등 고품질 하드웨어를 활용하며, 각각이 별도의 시스템에서 실행됩니다. 작업자 노드는 가상 머신으로 구성되며 상용 하드웨어에서 DataNode와 TaskTracker를 둘 다 실행하고 마스터 노드의 지시에 따라 실제로 작업을 저장하고 처리하는 실무를 담당합니다. 시스템을 이루는 마지막 부분을 클라이언트 노드라고 하는데, 이 노드는 데이터를 로드하고 결과를 가져오는 역할을 담당합니다.

- 마스터 노드는 MapReduce를 사용해 데이터에서 병렬식 연산을 실행하는 등 데이터를 HDFS