Hadoop Distributed File System(HDFS)
HDFS
HDFS(하둡 분산형 파일 시스템)는 하둡 애플리케이션에서 사용하는 기본 스토리지 시스템입니다. 이 오픈 소스 프레임워크는 노드 사이에 데이터를 고속으로 전송하며 주로 빅데이터를 처리하고 저장해야 하는 기업이 사용하는 경우가 많습니다. HDFS는 빅데이터를 관리하고 빅데이터 분석을 지원하는 수단을 제공하기 때문에 많은 하둡 시스템의 핵심 구성 요소입니다.
전세계 많은 기업들이 사용하고 있는 HDFS란 정확히 무엇이며 왜 필요할까요? HDFS가 무엇이며 기업에 유용한 이유에 대해 자세히 살펴보겠습니다.
HDFS란 무엇입니까?
HDFS는 하둡 분산형 파일 시스템(Hadoop Distributed File System)을 뜻합니다. HDFS는 상용 하드웨어에서 실행되도록 고안된 분산형 파일 시스템으로 운영됩니다.
HDFS는 내결함성을 보유하여 저가형 상용 하드웨어에 배포하도록 설계되어 있습니다. HDFS는 애플리케이션 데이터에 고처리량 데이터 액세스를 제공하며 대규모 데이터 세트를 포함한 애플리케이션에 적합하고, 아파치 하둡(Apache Hadoop)에 보관된 파일 시스템 데이터에 대한 스트리밍 액세스를 지원합니다.
그렇다면 하둡이란 무엇일까요? 그리고 HDFS와 어떻게 다를까요? 하둡과 HDFS의 주요 차이점은 하둡은 데이터를 저장, 처리 및 분석할 수 있는 오픈 소스 프레임워크이고, HDFS는 데이터에 대한 액세스를 제공하는 하둡의 파일 시스템이라는 점입니다. 이는 본질적으로 HDFS는 하둡의 모듈이라는 의미입니다.
HDFS 아키텍쳐를 살펴 보겠습니다.
보시다시피 HDFS는 NameNode 및 DataNode에 중점을 둡니다. NameNode는 GNU/Linux 운영 체제와 소프트웨어를 포함하는 하드웨어입니다. 하 둡 분산형 파일 시스템은 마스터 서버 역할을 하며 파일 관리와 클라이언트의 파일 액세스 및 파일 이름 변경, 파일 열기 및 닫기와 같은 외부 파일 운영 프로세스를 제어할 수 있습니다.
DataNode는 GNU/Linux 운영 체제와 DataNode 소프트웨어가 있는 하드웨어입니다. HDFS 클러스터에 있는 모든 노드는 DataNode에 위치합니다. 이러한 노드는 클라이언트의 요청에 따라 파일 시스템에 대한 작업을 수행할 수 있고 NameNode의 지시가 있을 때 파일을 생성, 복제, 차단할 수 있으므로 시스템의 데이터 스토리지를 제어하는 데 도움을 줍니다.
HDFS의 의미와 목적은 다음을 달성하는 것입니다.
- 대규모 데이터세트 관리 - 데이터세트의 구성과 저장은 처리하기 어려울 수 있습니다. HDFS는 대규모 데이터세트를 처리해야 하는 애플리케이션을 관리하는 데 사용되는데 그러려면 HDFS는 클러스터 당 수백 개의 노드를 보유해야 합니다.
- 결함 감지 - HDFS에는 많은 상용 하드웨어가 있으므로 결함을 빠르고 효과적으로 스캔하고 감지할 수 있는 기술이 있어야 합니다. 구성 요소의 장애는 일반적인 문제이기 입니다.
- 하드웨어 효율성 - 대규모 데이터세트가 관련된 경우 네트워크 트래픽을 줄이고 처리 속도를 높일 수 있습니다.
자세히 보기