Archivio Glossari | Databricks

Glossary

A-Z

L'ingestione dei dati è il primo passo nel ciclo di vita del data engineering. Consiste nella raccolta di dati da fonti eterogenee come database, applicazioni SaaS, file, API e dispositivi IoT, e nel loro trasferimento in un repository centralizzato {...}

AdaGrad

La discesa del gradiente è il metodo di ottimizzazione più utilizzato nel machine learning e negli algoritmi di deep learning per addestrare un modello di machine learning. Tipi di discesa del gradiente Nei moderni algoritmi di machine learning e dee{...}

Agenti di AI

Gli agenti di intelligenza artificiale sono un modo rivoluzionario per sfruttare la potenza dell'AI. Mentre i sistemi di AI tradizionali richiedono input continui da parte dell'utente, gli agenti di AI sono sistemi software intelligenti che interagis{...}

Analisi dei Big Data

Differenze fra l'analisi di dati e di Big Data Prima dell'invenzione di Hadoop, le tecnologie alla base dei moderni sistemi di storage e calcolo erano relativamente semplici e, di conseguenza, le aziende si dovevano limitare prevalentemente all'anali{...}

Analisi in streaming

Come funziona l'analisi in streaming? L'analisi in streaming, detta anche elaborazione di flussi di eventi, è l'analisi di grandi quantità (pool) di dati attuali e "in movimento" mediante l'utilizzo di query continue, chiamate stram, ovvero "flussi {...}

Analisi in tempo reale

Che cos'è l'analisi in tempo reale? L'analisi in tempo reale è la prassi di raccogliere e analizzare dati in streaming nel momento in cui vengono generati, con una latenza minima tra la generazione dei dati e la loro analisi. L'analisi in tempo reale{...}

Analisi predittiva

Che cos'è l'analisi predittiva? L'analisi predittiva è una forma di analisi avanzata che utilizza dati nuovi e dati storici per determinare modelli e prevedere risultati e tendenze future. Come funziona l'analisi predittiva? L'analisi predittiva si a{...}

Apache Hive

Cos'è Apache Hive? Apache Hive è un software di data warehouse open-source progettato per leggere, scrivere e gestire grandi set di dati estratti dall'Apache Hadoop Distributed File System (HDFS), un componente del più ampio ecosistema Hadoop. Grazie{...}

Apache Kudu

Che cos'è Apache Kudu? Apache Kudu è un sistema di archiviazione a colonne gratuito e open source sviluppato per Apache Hadoop. È un motore destinato ai dati strutturati che supporta l'accesso casuale a bassa latenza (con tempi di accesso nell'ordine{...}

Apache Kylin

Che cos'è Apache Kylin? Apache Kylin è un motore di elaborazione analitica online (OLAP) distribuito e open source per l'analisi interattiva dei Big Data. È stato progettato per fornire un'interfaccia SQL e analisi multidimensionale (OLAP) su Hadoop/{...}

Apache Spark

Che cos'è Apache Spark? Apache Spark è un motore di analisi open-source utilizzato per carichi di lavoro Big Data. È in grado di gestire l'analisi e l'elaborazione dei dati sia in batch sia in tempo reale. Apache Spark è nato nel 2009 come proge{...}

Apache Spark as a Service

Che cos'è Apache Spark as a Service? Apache Spark è un framework open-source distribuito pensato per l'elaborazione veloce e in tempo reale di dati su larga scala. Dalla sua nascita nel 2009 presso l'AMPLab dell'Università di Berkeley, Spark ha {...}

API Spark

Lavorando con Spark, avrai a disposizione tre API: DataFrame, set di dati e RDD Cosa sono i set di dati distribuiti resilienti (RDD)? Un RDD, o set di dati distribuiti resiliente, è una raccolta di record con elaborazione distribuita, tollerante agli{...}

Applicazioni continue

Le applicazioni continue sono applicazioni end-to-end che reagiscono ai dati in tempo reale. Per gli sviluppatori sarebbe auspicabile utilizzare un'unica interfaccia di programmazione per supportare i vari aspetti delle applicazioni continue che attu{...}

Applicazioni Spark

Le applicazioni Spark sono costituite da un processo driver e un insieme di processi executor (esecutori). Il processo driver esegue la funzione main(), risiede su un nodo nel cluster ed è responsabile di tre attività: mantenere le informazioni sull'{...}

Architettura a medaglione

Che cos'è un'architettura a medaglione? Il termine medallion architecture indica un metodo di progettazione utilizzato per organizzare i dati all'interno di un lakehouse, allo scopo di migliorare progressivamente la struttura e la qualità dei d{...}

Architettura dei dati

Il panorama aziendale si è evoluto rendendo i dati e l'AI fondamentali per il vantaggio competitivo. I dati sono diventati una risorsa chiave per qualsiasi azienda e la loro gestione deve essere progettata in modo oculato per supportare la strategia {...}

Architettura Lambda

Che cos'è l'architettura Lambda? L'architettura Lambda è una modalità per l'elaborazione di grandi quantità di dati (o Big Data), che dà accesso a metodi di elaborazione in batch e in streaming con un approccio ibrido. L'architettura Lambda viene uti{...}

Automazione dei dati

A fronte del continuo aumento dei dati, delle sorgenti e delle tipologie di dati, le organizzazioni hanno sempre più bisogno di strumenti e strategie per poter elaborare tali dati e ricavarne informazioni dettagliate e fruibili. La trasformazione di {...}

Bioinformatica

La bioinformatica è una disciplina che utilizza il calcolo informatico per estrarre informazioni da grandi aggregati di dati biologici. Il temine "bioinformatica" si riferisce all'uso dell'IT nella biotecnologia per archiviare, recuperare, organizzar{...}

Business Intelligence

Cos'è la Business Intelligence?La business intelligence (BI) è un insieme di tecnologie, processi e strategie progettato per analizzare i dati aziendali e fornire insight fruibili. I sistemi di BI trasformano i dati grezzi in informazioni significati{...}

Business Intelligence vs. Business Analytics: una panoramica

La Business Intelligence (BI) è un insieme di tecnologie, processi e strategie progettato per generare informazioni fruibili a partire dai dati aziendali. I sistemi di BI raccolgono e archiviano i dati operativi grezzi dell'attività aziendale, che ve{...}

Che cos'è Hadoop?

Apache Hadoop è una piattaforma software open-source basata su Java che gestisce l'elaborazione e la conservazione (storage) di dati per applicazioni con i Big Data. La piattaforma opera distribuendo lavori di Hadoop per l'elaborazione e l'analisi di{...}

Che cos'è la data intelligence?

La data intelligence è il processo di utilizzare sistemi di intelligenza artificiale (AI) per apprendere, comprendere e ragionare sui dati di un'organizzazione, così da creare applicazioni di AI personalizzate e democratizzare l'accesso ai dati in tu{...}

Cluster Hadoop

Cos'è un cluster Hadoop? Apache Hadoop è un framework software e un motore di elaborazione parallela open-source basato su Java. Consente di suddividere le attività di analisi dei Big Data in attività più piccole che possono essere eseguite in parall{...}

Commercio al dettaglio in tempo reale

Cosa sono i dati in tempo reale per il commercio al dettaglio? Fare commercio al dettaglio in tempo reale significa accesso ai dati in tempo reale. L'abbandono di un modello basato su accesso, analisi ed elaborazione orientati al batch a favore di da{...}

Comprendere i modelli di AI

Cosa sono i modelli di AI? I modelli di AI sono programmi che utilizzano i dati per riconoscere schemi, fare previsioni e prendere decisioni. I modelli di intelligenza artificiale utilizzano algoritmi, ovvero dettagliate sequenze di istruzioni basate{...}

Comprendere la qualità dei dati

Oggi più che mai, le organizzazioni fanno affidamento su una varietà di set di dati complessi per guidare il processo decisionale. Affinché le aziende possano prendere decisioni strategiche efficaci, è fondamentale che questi dati siano affidabili, a{...}

Compute serverless

Il compute serverless rappresenta l'ultima evoluzione dell'infrastruttura computazionale. In passato, le organizzazioni avevano bisogno di server fisici per eseguire applicazioni web. L'avvento del cloud computing ha reso possibile creare server virt{...}

Condivisione dei dati

Che cos'è il Data Sharing? Il data sharing, o condivisione di dati, è la capacità di rendere gli stessi dati disponibili a uno o più consumatori. Oggi, la quantità di dati in continuo aumento è diventata una risorsa strategica per qualsiasi azienda. {...}

Data lakehouse

Che cos'è un lakehouse? Il data lakehouse è una nuova architettura aperta per la gestione dei dati che unisce la flessibilità, l'economicità e la scalabilità dei data lake alle funzionalità di gestione dei dati e alle transazioni ACID dei data wareho{...}

Data Marketplace

Che cos'è un marketplace di dati o data market? I marketplace di dati, o data market, sono negozi online che permettono la condivisione di dati e la collaborazione. Mettono in contatto fornitori e consumatori di dati, offrendo la possibilità di acqui{...}

Data mart

Che cos'è un data mart? Un data mart è un database curato che include una serie di tabelle progettate per soddisfare le esigenze specifiche di un singolo team di dati, di una community o di una particolare unità aziendale, come il reparto marketing o{...}

Data mesh

I dati sono una risorsa fondamentale per le imprese, rappresentando la materia prima per l'innovazione e il progresso. La loro importanza è cresciuta con l'evoluzione delle aziende verso un modello sempre più orientato ai dati e alle decisioni, gener{...}

Data vault

Che cos'è un data vault? Un data vault è uno schema di modellazione dei dati utilizzato per costruire un data warehouse per analisi su scala aziendale. Un data vault consiste di tre componenti: hub, collegamenti e satelliti. Gli hub rappresentano con{...}

data warehouse

Che cos'è un data warehouse? Un data warehouse è un sistema di gestione dei dati pensato per le aziende che archivia dati attuali e storici provenienti da più fonti in modo semplice e intuitivo, facilitando l'analisi e la generazione di report. I dat{...}

Data warehouse unificato

Che cos'è un data warehouse unificato? Un data warehouse unificato, o data warehouse aziendale, raccoglie tutte le informazioni di un'azienda e le rende accessibili a tutta l'organizzazione. La maggior parte delle aziende oggi gestisce i propri dati {...}

Database vettoriali

Che cos'è un database vettoriale? Un database vettoriale è un database specializzato progettato per memorizzare e gestire dati sotto forma di vettori ad alta dimensionalità. Il termine deriva dai vettori, che sono rappresentazioni matematiche delle c{...}

Databricks Runtime

Databricks Runtime è l'insieme degli artefatti software che girano sui cluster delle macchine gestite da Databricks. Comprende Spark più una serie di componenti e aggiornamenti che migliorano notevolmente l'usabilità, le prestazioni e la sicurezza d{...}

DataFrames

Cos'è un DataFrame? Un DataFrame è una struttura dati che organizza i dati in una tabella bidimensionale di righe e colonne, simile a un foglio di calcolo. I DataFrames sono una delle più comuni strutture utilizzate nella moderna analisi dei dati per{...}

Dati alternativi

Che cosa sono i dati alternativi? I dati alternativi sono informazioni raccolte utilizzando sorgenti di dati alternative non utilizzate da altri, ovvero fonti di informazione non tradizionali. L'analisi di dati alternativi può fornire informazio{...}

deep learning

Che cos'è il deep learning? Il deep learning è una sottocategoria del machine learning che tratta grandi quantità di dati con algoritmi ispirati alla struttura e al funzionamento del cervello umano. Per questo motivo, i modelli di deep learning sono {...}

Ecosistema Hadoop

Che cos'è l'ecosistema Hadoop? L'ecosistema Apache Hadoop è costituito dai diversi componenti della libreria software Apache Hadoop; comprende progetti open-source e una gamma completa di strumenti complementari. Fra gli strumenti più conosciuti dell{...}

Efficacia totale dell'impianto (OEE)

Che cos'è l'efficienza totale di un impianto? L'efficienza totale di un impianto(OEE) è un parametro che misura quanto un'attività produttiva viene utilizzata (dal punto di vista di strutture, tempo e materiali) rispetto al suo pieno potenziale, dura{...}

Elaborazione dati

Che cos'è l'elaborazione dei dati?L'elaborazione dei dati è la trasformazione completa, da un capo all'altro, dei dati grezzi in informazioni utili e azionabili. Le organizzazioni si affidano a questi sistemi per elaborare dati strutturati e non stru{...}

Elaborazione di eventi complessi

Cos'è l'Elaborazione di eventi complessi [CEP]? L'elaborazione di eventi complessi [CEP], conosciuta anche come elaborazione di eventi, flussi o flussi di eventi, è l'uso della tecnologia per interrogare i dati prima di archiviarli in un database o, {...}

Extract Transform Load (ETL)

Cosa significa ETL? Mentre le organizzazioni si trovano a dover gestire volumi sempre maggiori di dati di diverso tipo provenienti da diverse sorgenti, aumenta anche l'esigenza di utilizzare tali dati in iniziative analitiche, di Data Science e di ma{...}

Finanza personalizzata

Che cos'è la finanza personalizzata? Da quando i settori dei media e della vendita al dettaglio hanno aumentato la loro propensione per le esperienze personalizzate, i prodotti e servizi finanziari sono sempre più mercificati e i consumatori sono div{...}

Flusso di dati

Che cos'è il flusso di dati? Il "flusso di dati" è il movimento dei dati attraverso l'architettura di un sistema, da un processo o componente a un altro. L'espressione descrive il modo in cui i dati vengono acquisiti, elaborati, archiviati e restitui{...}

Framework AI unificato

Facebook ha annunciato la Unified Artificial Intelligence (UAI, intelligenza artificiale unificata) alla conferenza F8 di quest'anno. L'UAI combina due framework specifici per il deep learning che Facebook ha creato ed esternalizzato: PyTorch si è co{...}

Funzioni dati Hive

Che cos'è una funzione dati Hive? Hive dispone di molte funzioni integrate per l'elaborazione e l'interrogazione dei dati. Alcune delle funzionalità fornite includono, ad esempio, la manipolazione di stringhe, la manipolazione di date, la conversione{...}

Gemello digitale

Che cos'è un gemello digitale? Secondo la definizione classica, un gemello digitale è "un modello virtuale progettato per riflettere in modo preciso un oggetto fisico". - IBM[KVK4] In un processo di produzione discreto o continuo, un gemello digitale{...}

Genomica

La genomica è un settore della genetica che si occupa del sequenziamento e dell'analisi del genoma di un organismo. Il suo compito principale è determinare l'intera sequenza del DNA o la composizione degli atomi che lo compongono e i legami chimici c{...}

Gestione dei dati

Che cos'è la gestione dei dati? Iniziamo con il definire cosa si intende per "gestione dei dati". La gestione dei dati è la pratica di organizzare, elaborare, archiviare, proteggere e analizzare i dati di un'organizzazione durante tutto il loro ciclo{...}

Gestione del rischio del modello

La gestione del rischio del modello si riferisce alla valutazione dei rischi generati da potenziali conseguenze avverse di decisioni basate su modelli errati o utilizzati impropriamente. Lo scopo della gestione del rischio del modello è applicare tec{...}

Gestione della supply chain

Cos'è la gestione della supply chain? La gestione della supply chain è il processo di pianificazione, implementazione e controllo delle operazioni della catena di fornitura con l'obiettivo di produrre e consegnare in modo efficiente ed efficace prodo{...}

Governance dei dati

Che cos'è la governance dei dati? La governance dei dati è la supervisione necessaria per garantire che i dati apportino valore e supportino la strategia aziendale. La governance dei dati è più di un semplice strumento o processo. Uniforma i requisit{...}

Hadoop Distributed File System (HDFS)

HDFS HDFS (Hadoop Distributed File System) è il sistema di archiviazione principale utilizzato dalle applicazioni Hadoop. Questo framework open-source trasferisce rapidamente i dati tra i nodi ed è spesso utilizzato dalle aziende che hanno bisogno di{...}

Hash Bucket

In informatica, una tabella hash [mappa hash] è una struttura di dati che offre un accesso virtualmente diretto a oggetti sulla base di una chiave [una stringa o un numero intero unico]. Una tabella hash usa una funzione hash per calcolare un indice {...}

Ingegneria dei prompt

L'ingegneria dei prompt è un campo emergente all'avanguardia dello sviluppo dell'intelligenza artificiale (IA) che si concentra sui processi cruciali per la creazione di input efficaci per i modelli di AI generativa (GenAI). Man mano che i sistemi di{...}

ingegnerizzazione delle feature

Ingegneria delle funzionalità per il machine learning L'ingegneria delle funzionalità, detta anche pre-elaborazione dei dati, è il processo di conversione dei dati grezzi in funzionalità utilizzabili per sviluppare modelli di machine learning. Questo{...}

Intelligenza artificiale generativa

L'intelligenza artificiale generativa sta cambiando il modo in cui gli esseri umani creano, lavorano e comunicano. Databricks spiega come funziona l'AI generativa e dove si dirige in futuro. {...}

Introduzione alle piattaforme di business intelligence

Una piattaforma di business intelligence (BI) è una soluzione tecnologica completa che aiuta le organizzazioni a raccogliere, comprendere e visualizzare i propri dati per prendere decisioni informate. Queste piattaforme rappresentano l’ossatura tecno{...}

Introduzione allo streaming dei dati

Negli ultimi anni, la necessità di disporre di dati in tempo reale è cresciuta esponenzialmente. Le organizzazioni stanno costruendo sempre più applicazioni e piattaforme che sfruttano i flussi di dati per fornire analisi in tempo reale e machine lea{...}

Lakehouse per il retail

Che cos'è Lakehouse for Retail? Lakehouse for Retail è il primo lakehouse specifico per il settore del commercio al dettaglio. Aiuta i rivenditori a diventare rapidamente operativi fornendo loro acceleratori di soluzioni, funzionalità di condivisione{...}

Livello semantico

Comprendere il livello semanticoUn livello semantico è un'interfaccia business-friendly che fa da ponte tra modelli di dati complessi e utenti aziendali. Agendo come livello di astrazione, traduce le strutture tecniche in concetti e termini familiari{...}

LLMOps

Che cos'è LLMOps? Large Language Model Ops (LLMOps) riguarda le pratiche, le tecniche e gli strumenti utilizzati per la gestione operativa di modelli linguistici di grandi dimensioni in ambienti di produzione. I progressi più recenti nel campo dei mo{...}

Machine Learning Library (MLlib)

Machine Learning Library (MLlib) di Apache Spark è progettata nell'ottica della semplicità, della scalabilità e della facilità di integrazione con altri strumenti. Grazie alla scalabilità, alla compatibilità del linguaggio e alla velocità di Spark, i{...}

Manutenzione predittiva

Che cos'è la manutenzione predittiva? La manutenzione predittiva consiste essenzialmente nel capire quando un asset deve essere sottoposto a manutenzione e quali attività specifiche devono essere eseguite in base alle sue condizioni o al suo stato ef{...}

MapReduce

Che cos'è MapReduce? MapReduce è un framework di esecuzione distribuita basato su Java all'interno dell'ecosistema Apache Hadoop. Elimina la complessità della programmazione distribuita mettendo a disposizione degli sviluppatori due fasi di elaborazi{...}

Migrazione dei dati

Le aziende si affidano ai dati oggi più che mai. Per assicurarti che i tuoi dati siano davvero utili, ti converrà utilizzare la migliore piattaforma dati possibile, e questo potrebbe richiedere una migrazione dei dati. Se hai domande sulla migrazione{...}

MLOps

Che cos'è MLOps? MLOps sta per Machine Learning Operations. MLOps è una funzione chiave della tecnologia di Machine Learning, nata per snellire il processo che porta i modelli di machine learning in produzione e per le fasi successive di manutenzione{...}

Modellazione dei dati

La modellazione dei dati è un processo fondamentale per progettare e organizzare le strutture dei dati, così da supportare un’archiviazione, un recupero e un’analisi efficienti delle informazioni. È la base architetturale di qualsiasi sistema di data{...}

Modelli di machine learning

Che cos'è un modello di machine learning? Un modello di machine learning è un programma che ha la capacità di trovare schemi o prendere decisioni analizzando un set di dati mai visto prima. Ad esempio, nell'elaborazione del linguaggio naturale (NLP),{...}

Modelli Keras

Che cos'è un modello Keras? Keras è una libreria di alto livello per deep learning, basata su Theano e Tensorflow. È scritta in Python e offre una modalità ordinata e comoda per creare una serie di modelli di deep learning. Keras è diventata una{...}

Modelli linguistici di grandi dimensioni (LLM)

Cosa sono i modelli linguistici di grandi dimensioni (LLM)? I modelli linguistici di grandi dimensioni (LLM) sono una nuova classe di modelli per l'elaborazione del linguaggio naturale (NLP) che hanno superato in modo significativo i loro predecessor{...}

Notebook Jupyter

Che cos'è un notebook Jupyter? Un notebook Jupyter è un'applicazione web open-source che consente ai data scientist di creare e condividere documenti che contengono codice live, equazioni e altre risorse multimediali. A che cosa servono i notebook Ju{...}

Open banking

Che cos'è l'open banking? L'open banking è un modo sicuro per fornire accesso ai dati finanziari di un cliente, previo suo consenso.² Governato da dinamiche normative, tecnologiche e competitive, l'open banking richiede la democratizzazione dei dati {...}

Orchestrazione

Che cos'è l'orchestrazione? L'orchestrazione è il coordinamento e la gestione di molteplici sistemi, applicazioni e/o servizi informatici, concatenando più attività per eseguire un flusso di lavoro o un processo più grande. Questi processi possono es{...}

Ottimizzatore Catalyst

Il cuore di Spark SQL è l'ottimizzatore Catalyst, che sfrutta funzionalità avanzate del linguaggio di programmazione (ad es. pattern matching di Scala e quasiquotes) in modo nuovo per costruire un ottimizzatore di query estensibile. Catalyst si basa {...}

Ottimizzazione

Comprendere l'ottimizzazione Nell'addestramento di modelli di intelligenza artificiale (AI) e machine learning (ML) per scopi specifici, data scientist e data engineer hanno scoperto che è più semplice ed economico modificare modelli LLM pre-addestra{...}

Ottimizzazione di Spark

Che cos'è l'ottimizzazione delle prestazioni di Spark? L'ottimizzazione delle prestazioni di Spark si riferisce al processo di regolazione delle impostazioni relativamente alla memoria, ai core e alle istanze utilizzate dal sistema. Questo processo g{...}

pandas DataFrame

Quando si parla di data science, non è esagerato affermare che può cambiare il modo di lavorare di un'azienda se sfruttata in tutto il suo potenziale con pandas DataFrame. Per ottenere questo risultato, servono strutture di dati adeguate. In questo {...}

Panoramica degli strumenti di business intelligence

Gli strumenti di business intelligence (BI) sono una categoria fondamentale di applicazioni software progettate per raccogliere, elaborare, analizzare e presentare i dati aziendali in modi significativi. Fondamentalmente, questi strumenti trasformano{...}

Parquet

Che cos'è Parquet? Apache Parquet è un formato open-source di file di dati a colonne, pensato per lo stoccaggio e il recupero efficiente dei dati. Offre una compressione efficiente dei dati e schemi di codifica con prestazioni avanzate per gestire da{...}

Piattaforma di analisi dei dati

Che cos'è una piattaforma di analisi dei dati? Una piattaforma di analisi dei dati è un ecosistema di servizi e tecnologie che esegue analisi su dati voluminosi, complessi e dinamici per consentire all'utente di recuperare, combinare, esplorare, vis{...}

Piattaforma di analisi unificata dei dati

La piattaforma di analisi unificata dei dati Databricks aiuta le organizzazioni ad accelerare l'innovazione unificando data science, ingegneria e business. Adottando Databricks come piattaforma di analisi unificata dei dati, si possono preparare e pu{...}

Pipeline di dati

Che cos'è una pipeline di dati? Una pipeline di dati racchiude le modalità con cui i dati fluiscono da un sistema all'altro. Consiste in una serie di fasi che vengono eseguite in un ordine specifico e in cui l'output di una fase funge da input per la{...}

Pipeline ML

Solitamente, l'esecuzione di algoritmi di machine learning prevede una sequenza di attività fra cui pre-elaborazione, estrazione di caratteristiche (feature), adattamento del modello e fasi di convalida. Ad esempio, la classificazione di documenti di{...}

Pregiudizio dell'automazione

Che cos'è il pregiudizio dell'automazione? Il pregiudizio dell'automazione è un'eccessiva dipendenza dagli ausili automatizzati e dai sistemi di supporto alle decisioni. Con l'aumento della disponibilità di ausili decisionali automatizzati, si sta se{...}

Previsione della domanda

Che cos'è la previsione della domanda? La previsione della domanda è il processo di proiezione della domanda dei consumatori (che equivale alle entrate future). Nello specifico, prevede l'assortimento di prodotti che i consumatori acquisteranno, util{...}

Provenienza dei dati

Che cos'è la tracciabilità dei dati?La tracciabilità dei dati è il processo di registrazione, monitoraggio e visualizzazione dei dati e dell'AI nel tempo, dall'origine al consumo. Un data lineage efficace offre ai team dati una visione completa di co{...}

PyCharm

PyCharm è un ambiente di sviluppo integrato (IDE) utilizzato nella programmazione informatica, creato per il linguaggio di programmazione Python. Quando si usa PyCharm su Databricks, per default PyCharm crea un Python Virtual Environment, ma l'utent{...}

pyspark

Che cos'è PySpark? Apache Spark è scritto in linguaggio di programmazione Scala. PySpark è stato lanciato per supportare la collaborazione fra Apache Spark e Python; si tratta sostanzialmente di un'API Python per Spark. Inoltre, PySpark aiuta a inter{...}

Rete neurale

Che cos'è una rete neurale? Una rete neurale è un modello di calcolo con una struttura a strati/nodi che assomiglia alla struttura reticolare dei neuroni nel cervello umano. È caratterizzata da elementi di elaborazione interconnessi chiamati neuroni,{...}

Rete neurale artificiale

Che cos'è una rete neurale artificiale? Una rete neurale artificiale (in inglese artificial neural network ANN) è un sistema di calcolo che ricalca il funzionamento dei neuroni nel cervello umano. Come funzionano le reti neurali artificiali? Le reti {...}

Rete neurale bayesiana

Cosa sono le reti neurali bayesiane? Le reti neurali bayesiane (BNNs) si riferiscono all'estensione delle reti standard con l'inferenza posteriore per controllare l'overfitting. Da una prospettiva più ampia, l'approccio bayesiano utilizza la metodolo{...}

Retrieval Augemented Generation (Generazione potenziata dal recupero)

RiepilogoScopri come funziona la generazione potenziata dal recupero (RAG) combinando grandi modelli di linguaggio (LLMs) con dati esterni in tempo reale per output più accurati e pertinenti.Vedi come RAG risolve problemi specifici, come la riduzione{...}

Rilevamento delle anomalie

Il rilevamento di anomalie è la tecnica di identificazione di osservazioni o eventi rari che possono destare sospetti in quanto statisticamente diversi dal resto delle osservazioni. Questi comportamenti "anomali" rivelano in genere qualche tipo di pr{...}

Schema a fiocco di neve

Che cos'è uno schema a fiocco di neve? Lo schema a fiocco di neve (snowflake) è un modello di dati multidimensionale che rappresenta un'estensione dello schema a stella, dove le tabelle di dimensioni sono ramificate con altre tabelle (sottodime{...}

Schema a stella

Che cos'è uno schema a stella? Lo schema a stella è un modello di dati multidimensionale utilizzato per organizzare i dati in un database, in modo che siano facili da capire e analizzare. Gli schemi a stella possono essere applicati a data warehouse,{...}

Sequenziamento del DNA

Cos'è il sequenziamento del DNA? Il sequenziamento del DNA è il processo che consente di determinare l'esatta sequenza dei nucleotidi che costituiscono il DNA (acido desossiribonucleico). La sequenza di DNA è l'ordine in cui i quattro elementi {...}

Set di dati

Che cos'è un set di dati? Un set di dati è una raccolta strutturata di dati organizzati e archiviati per l'analisi o l'elaborazione. I dati di un set sono tipicamente correlati in qualche modo e provengono da un'unica fonte o sono destinati a un unic{...}

Set di dati distribuito resiliente (RDD)

Fin dalla sua concezione, RDD è stata la principale API di Spark rivolta all'utente. In sostanza, un RDD è una raccolta distribuita e immutabile di elementi dei tuoi dati, partizionata tra i nodi di clusters, che può essere gestita in parallelo con {...}

Sicurezza dei dati

Nel mondo di oggi, altamente connesso, le minacce alla sicurezza informatica e i rischi interni sono una preoccupazione costante. Le organizzazioni devono avere il controllo sui tipi di dati in loro possesso, impedirne l'uso non autorizzato e identif{...}

Sistemi di AI composti

Cosa sono i sistemi di AI composti? Secondo la definizione del blog Berkeley AI Research (BAIR), sono sistemi che gestiscono attività di intelligenza artificiale combinando più componenti che interagiscono tra loro. Un sistema di AI composto può incl{...}

Spark Elasticsearch

Che cos'è Spark Elasticsearch? Spark Elasticsearch è un database NoSQL distribuito che archivia, recupera e gestisce dati semi-strutturati e orientati ai documenti.È un motore di ricerca RESTful open source di GitHub basato su Apache Lucene e rilasci{...}

Spark gestito

Che cos'è uno Spark gestito? Un servizio Spark gestito consente di sfruttare gli strumenti open-source per l'elaborazione in batch, l'interrogazione, lo streaming e il machine learning. Utilizzando un'automazione di questo tipo, si possono creare rap{...}

Spark SQL

Molti data scientist, analisti e utenti generici di business intelligence utilizzano query SQL interattive per esplorare i dati. Spark SQL è un modulo Spark per l'elaborazione di dati strutturati, che offre un'astrazione di programmazione chiamata Da{...}

Spark Streaming

Apache Spark Streaming è la generazione precedente del motore di streaming di Apache Spark. Non sono più disponibili aggiornamenti per Spark Streaming e il progetto è stato dismesso. Esiste un motore di streaming più nuovo e facile da usare in Apache{...}

Spark su host

Che cosa significa Spark su host? Originariamente costruito all'Università di Berkeley nel 2009, Apache Spark è un veloce motore di calcolo distribuito pensato per i Big Data che assicura velocità, facilità d'uso e funzionalità analitiche avanzate. F{...}

Sparklyr

Che cos'è Sparklyr? Sparklyr è un pacchetto open-source che fornisce un'interfaccia tra R e Apache Spark. In questo modo è possibile sfruttare le funzionalità di Spark in un ambiente R moderno, grazie alla capacità di Spark di interagire con dati dis{...}

sparkr

SparkR è uno strumento per eseguire R su Spark. Segue gli stessi principi di tutti gli altri binding linguistici di Spark. Per utilizzare SparkR, è sufficiente importarlo nel nostro ambiente ed eseguire il nostro codice. Nel complesso è molto simile {...}

Strato convoluzionale

Nel deep learning, una rete neurale convoluzionale (CNN o ConvNet) è una classe di reti neurali profonde tipicamente utilizzate per riconoscere pattern (elementi o schemi) presenti nelle immagini, ma anche per analisi di dati spaziali, visione artifi{...}

streaming strutturato

Structured Streaming è un'API di alto livello per l'elaborazione in streaming che è diventata disponibile in Spark 2.2. Structured Streaming consente di prendere le stesse operazioni eseguite in modalità batch utilizzando le API strutturate di Spark {...}

Tensore denso

I tensori densi memorizzano i valori in un blocco di memoria sequenziale contiguo in cui sono rappresentati tutti i valori. I tensori o array multidimensionali sono utilizzati in un'ampia gamma di applicazioni di analisi dei dati multidimensionali. E{...}

Tensore sparso

Python offre una libreria integrata chiamata numpy per gestire gli array multidimensionali. L'organizzazione e l'uso di questa libreria è un requisito primario per lo sviluppo della libreria pytensor. Sptensor è una classe che rappresenta il tensore {...}

tensorflow

Nel novembre 2015, Google ha rilasciato il suo framework open source per machine learning, TensorFlow. La piattaforma supporta deep learning, reti neurali e calcoli numerici su CPU, GPU e cluster di GPU. Uno dei maggiori vantaggi di TensorFlow è la {...}

Tensorflow Estimator API

Che cos'è l'API Tensorflow Estimator? Gli stimatori rappresentano un modello completo ma, al tempo stesso, appaiono più intuitivi agli utenti meno esperti. L'API Estimator fornisce metodi per addestrare il modello, valutarne l'accuratezza e generare {...}

Transazioni ACID

Che cos'è una transazione? Nel contesto di database e sistemi di archiviazione dei dati, per transazione si intende qualsiasi operazione gestita come singola unità di lavoro, che viene portata a termine oppure non viene completata del tutto, lasciand{...}

Trasformazione dei dati

Cos'è la trasformazione dei dati? La trasformazione consiste nel prendere i dati grezzi estratti da varie sorgenti e trasformarli in dataset utilizzabili. Le pipeline di dati spesso includono molteplici processi di trasformazione per convertire infor{...}

Tungsten

Che cos'è il progetto Tungsten? Tungsten è il nome in codice del progetto che si propone di apportare modifiche al motore di esecuzione di Apache Spark, con l'obiettivo di migliorare sensibilmente l'efficienza della memoria e della CPU per le applica{...}

Unified Data Analytics

Unified Data Analytics è una nuova categoria di soluzioni che combina l'elaborazione dei dati con le tecnologie di AI per rendere l'AI molto più accessibile alle aziende e consentire loro di accelerare i progetti di intelligenza artificiale. Unified {...}

Viste materializzate

Che cos'è una vista materializzata? Una vista materializzata è un oggetto di database che memorizza i risultati di una query sotto forma di tabella fisica. A differenza delle normali viste di database, che sono virtuali e ricavano i dati da tabelle s{...}