Apache Kudu
Che cos'è Apache Kudu?
Apache Kudu è un sistema di archiviazione a colonne gratuito e open source sviluppato per Apache Hadoop. È un motore destinato ai dati strutturati che supporta l'accesso casuale a bassa latenza (con tempi di accesso nell'ordine dei millisecondi) a righe singole insieme a modelli di accesso analitici efficienti. È un motore per i Big Data creato per colmare il divario tra l'Hadoop Distributed File System [HDFS], ampiamente utilizzato, e il database NoSQL HBase.
Principali vantaggi di Apache Kudu nel supporto alla Business Intelligence [BI] su Hadoop
Consente l'analisi in tempo reale su Fast Data
Apache Kudu combina i vantaggi di HBase e Parquet. È veloce quanto HBase nell'inserimento dei dati e quasi quanto Parquet nelle query analitiche. Supporta più tipi di query, consentendo di eseguire le seguenti operazioni:
- ricerca di un determinato valore tramite la sua chiave;
- ricerca di un intervallo di chiavi che sono state disposte in un certo ordine;
- esecuzione di query arbitrarie su un numero infinito di colonne.
Completamente distribuito e con tolleranza agli errori
Apache Kudu utilizza l'algoritmo di consenso RAFT e può quindi essere scalato orizzontalmente verso l'alto o verso il basso in base alle necessità. Inoltre, è dotato di supporto per la funzione di aggiornamento sul posto.
Pronto per la prossima generazione di hardware
Apache Kudu è ottimizzato per SSD ed è progettato per sfruttare al meglio le memorie persistenti di prossima generazione. Può scalare decine di core per server e avvalersi di operazioni SIMD per l'elaborazione di dati in parallelo.
Fornisce la mutabilità necessaria per la BI su Big Data
Include una "slowly changing dimension", o SCD. Questa funzionalità consente all'utente di tenere traccia delle modifiche all'interno di un dato dimensionale di riferimento.
Kudu supporta SQL se utilizzato in combinazione con Spark o Impala
Vuoi accedere ai dati tramite SQL? Sarai felice di sapere che Apache Kudu si integra perfettamente con Apache Impala e Spark. Potrai quindi utilizzare questi strumenti per inserire, interrogare, aggiornare e cancellare dati dai tablet Kudu utilizzando la loro sintassi SQL. Tramite Impala, potrai inoltre utilizzare JDBC o ODBC per collegare ai tuoi dati Kudu applicazioni esistenti o nuove, indipendentemente dal linguaggio in cui sono state scritte, framework e persino strumenti di Business Intelligence.