아파치 쿠두(Apache Kudu)

Databricks 무료로 시작하기

Apache Kudu란 무엇입니까?

아파치 쿠두는 아파치 하둡용으로 개발한 무료, 오픈 소스 컬럼 기반 스토리지 시스템입니다. 각각의 행에 낮은 레이턴시(low-latency) 랜덤 액세스, 밀리초 급의 액세스를 지원하며 우수한 분석 액세스 패턴을 제공하는 구조적 데이터용 엔진이며, 널리 보급된 Hadoop Distributed File System [HDFS] 및 HBase NoSQL Database를 연결하기 위해 만든 빅데이터 엔진이기도 합니다. Apache Kudu 로고

하둡에서 비즈니스 인텔리전스 [BI] 지원에 Apache Kudu가 가지는 주된 장점

Apache Kudu의 주된 장점

고속 데이터에 대한 실시간 분석 지원

Apache Kudu는 HBase와 Parquet의 장점을 합쳐 제공합니다. 데이터 수집은 HBase만큼 빠르고, 분석 쿼리에 관해서는 Parquet의 속도에 비견할 만합니다. 또한 여러 가지 쿼리 유형을 지원하여 다음과 같은 작업을 수행할 수 있게 해줍니다.

특정 키를 이용해 해당 값을 검색합니다.
정렬되어 있는 키를 이용해 일정 범위의 키를 조회합니다.
필요한 만큼 얼마든지 많은 수의 열에 걸쳐 임의 쿼리를 수행합니다.

완전 분산형, 내결함성

Apache Kudu는 RAFT 컨센서스 알고리즘을 사용하므로 필요에 따라 수평적으로 스케일 업 또는 다운 시킬수 있습니다. 또한 update-in-place 기능도 지원합니다.

다음 세대 하드웨어의 장점 활용

Apache Kudu는 SSD에 최적화되어 있으며 다음 세대 비휘발성 메모리의 장점을 활용할 수 있도록 고안하였습니다. 서버당 수십 대의 코어에 맞춰 확장할 수 있으며, 데이터 병렬식(data-parallel) 연산에 SIMD 작업의 장점도 활용할 수 있습니다.

빅데이터에서 BI에 필요한 변경 가능성 제공

여기에는 일명 SCD라고 하는 'slowly changing dimension'(느린 차원 변경) 구조가 있습니다. 이 기능을 사용하면 사용자가 차원 참조 데이터 내의 변경 사항을 추적할 수 있습니다.

Kudu는 Spark나 Impala와 함께 사용하면 SQL 지원

SQL을 통해 데이터에 액세스하고자 합니까? Apache Kudu는 Apache Impala는 물론 Spark와도 긴밀하게 통합된다는 반가운 소식을 알려드립니다. 따라서 이러한 툴을 사용하여 Kudu 태블릿의 데이터를 SQL 구문을 사용해 삽입, 쿼리, 업데이트하고 삭제할 수 있습니다. 뿐만 아니라, JDBC나 ODBC를 사용해 기존 또는 신규 애플리케이션(작성 언어, 프레임워크 불문)은 물론 비즈니스 인텔리전스 툴까지 Kudu 데이터에 연결할 수 있습니다. 이 경우 Impala를 툴로 활용하면 됩니다.

추가 자료

용어집으로 돌아가기