Glossary
A-Z
Was ist eine Transaktion? Im Kontext von Datenbanken und Datenspeichersystemen bezeichnet der Begriff Transaktion jeden Vorgang, der als separate Arbeitseinheit behandelt wird. Transaktionen werden wahlweise vollständig oder überhaupt nicht durchgefü{...}
Der Gradientenabstieg ist die am häufigsten verwendete Optimierungsmethode für Machine-Learning- und Deep-Learning-Algorithmen. Er wird verwendet, um ein Machine-Learning-Modell zu trainieren. Arten des Gradientenabstiegs Es gibt drei Hauptarten des {...}
Was sind alternative Daten? Alternative Daten sind Informationen, die aus alternativen Datenquellen gewonnen werden, die andere nicht nutzen; d. h., aus nicht-konventionellen Datenquellen. Analysen alternativer Daten können Erkenntnisse lie{...}
Was ist Apache Hive? Apache Hive ist eine Open-Source-Data-Warehouse-Software zum Lesen, Schreiben und Verwalten großer Datasets, die aus dem Apache Hadoop Distributed File System (HDFS) (HDFS) extrahiert wurden, eine Komponente eines größeren Hadoop{...}
Was ist Apache Kudu? Apache Kudu ist ein kostenloses und spaltenorientiertes Open-Source-Speichersystem, das für Apache Hadoop entwickelt wurde. Es handelt sich um eine Engine für strukturierte Daten, die zufälligen Zugriff mit niedriger Latenz im Mi{...}
What is Apache Kylin? Apache Kylin is a distributed open source online analytics processing (OLAP) engine for interactive analytics Big Data. Apache Kylin has been designed to provide SQL interface and multi-dimensional analysis (OLAP) on Hadoop/Spar{...}
Was ist Apache Spark? Apache Spark ist eine Open-Source-Analyse-Engine, die für Big-Data-Workloads verwendet wird. Spark bewältigt Analysen und Datenverarbeitungsaufgaben sowohl im Batch-Verfahren als auch in Echtzeit. Seinen Anfang nahm es 2009 als {...}
Was ist Apache Spark-as-a-Service? Apache Spark ist ein Open-Source-Cluster-Computing-Framework für dschnelle Echtzeit-Datenverarbeitung in großen Stil. Seit seinen Anfängen im Jahr 2009 im AMPLab der UC Berkeley hat Spark ein beachtliche Entwic{...}
Was ist Automation Bias? Als Automation Bias bezeichnet man ein übermäßiges Vertrauen in automatisierte Hilfsmittel und Systeme zur Entscheidungsfindung. Mit der zunehmenden Verfügbarkeit automatisierter Entscheidungshilfen werden diese immer häufige{...}
Was sind Bayes'sche neuronale Netze? Der Begriff Bayes'sche neuronale Netze (BNNs) bezieht sich auf die Erweiterung herkömmlicher neuronaler Netze mit Posterior-Inferenz, um eine Überanpassung zu kontrollieren. Aus einer umfassenderen Perspektive bet{...}
Der Unterschied zwischen Datenanalyse und Big Data Analytics Vor der Erfindung von Hadoop waren die Technologien, die den modernen Speicher- und Rechensystemen zugrunde liegen, relativ schlicht. Daher waren die Unternehmen meist auf die Analyse von „{...}
Die Bioinformatik ist ein Forschungsgebiet, in dem Berechnungen eingesetzt werden, um Wissen aus großen Sammlungen biologischer Daten zu extrahieren. Als „Bioinformatik“ bezeichnet man die Nutzung der IT in der Biotechnologie zum Speichern, Abrufen, {...}
Das Herzstück von Spark SQL ist Catalyst Optimizer. Dieser Optimierer nutzt fortschrittliche Funktionen der Programmiersprache (z. B. das Pattern-Matching aus Scala oder Quasiquotes) auf innovative Weise, um einen erweiterbaren Abfrageoptimierer{...}
What is Complex Event Processing [CEP]? Complex event processing [CEP] also known as event, stream or event stream processing is the use of technology for querying data before storing it within a database or, in some cases, without it ever being stor{...}
Was sind Compound-KI-Systeme? Laut der Definition im Blog von Berkeley AI Research (BAIR) handelt es sich bei Compound-KI-Systemen um solche, die KI-Aufgaben durch die Kombination mehrerer interagierender Komponenten bewältigen. Diese Komponenten kön{...}
Was ist Data Governance? Als Data Governance wird die Kontrolle bezeichnet, mit der sichergestellt werden soll, dass Daten Mehrwert schaffen und die Geschäftsstrategie unterstützen. Data Governance ist mehr als nur ein Tool oder ein Prozess: Sie rich{...}
Was ist ein Data Lakehouse? Ein Data Lakehouse ist eine neuartige, offene Datenverwaltungsarchitektur, die die Flexibilität, Kosteneffizienz und Skalierbarkeit von Data Lakes mit Datenverwaltungsfunktionen und ACID-Transaktionen von Data Warehouses k{...}
Was ist ein Data Marketplace oder Datenmarkt? Data Marketplaces oder Datenmärkte sind Onlineshops, die Data Sharing und Zusammenarbeit ermöglichen. Sie vernetzen Datenanbieter und Datenverbraucher und bieten den Teilnehmern die Möglichkeit, Daten und{...}
Was ist ein Data Mart? Ein Data Mart ist eine kuratierte Datenbank mit einer Reihe von Tabellen, die darauf ausgelegt sind, die spezifischen Anforderungen eines einzelnen Datenteams, einer Community oder eines Geschäftsbereichs wie der Marketing- ode{...}
Was ist ein Data Vault? Ein Data Vault ist ein Entwurfsmuster zur Datenmodellierung, das zum Erstellen eines Data Warehouse für unternehmensweite Analysen verwendet wird. Data Vaults sind in drei Kategorien eingeteilt: Hubs, Links und Satelliten. Hub{...}
Was ist ein Data Warehouse? Ein Data Warehouse ist ein Datenverwaltungssystem, das aktuelle und historische Daten aus verschiedenen Quellen in einer unternehmensgerechten Weise speichert, um Einblicke und Berichte zu erleichtern. Data Warehouses komm{...}
Databricks Runtime umfasst eine Anzahl von Softwareartefakten, die auf den von Databricks verwalteten Rechnerclustern ausgeführt werden. Sie enthält Spark, ergänzt es aber um eine Reihe von Komponenten und Updates, mit denen Benutzerfreundlichkeit, {...}
Was ist ein DataFrame? Ein DataFrame ist eine Datenstruktur, die Daten in einer zweidimensionalen Tabelle mit Zeilen und Spalten organisiert, ähnlich wie in einer Tabellenkalkulation. DataFrames zählen zu den am häufigsten verwendeten Datenstrukturen{...}
Wenn Sie in einer Position arbeiten, in der Sie mit Daten interagieren, sind Sie sicher schon einmal, ob wissentlich oder nicht, mit einer Datenpipeline in Berührung gekommen. Zahlreiche moderne Unternehmen nutzen eine Vielzahl von cloudbasierten Pla{...}
Was ist eine Datenanalyseplattform? Eine Datenanalyseplattform ist ein Ökosystem mit Services und Technologien für die Analyse umfangreicher, komplexer und dynamischer Daten. Sie können damit Daten aus den verschiedenen Quellen Datenquellen eines Un{...}
Angesichts der wachsenden Menge an Daten, Datenquellen und Datentypen benötigen Unternehmen zunehmend Tools und Strategien, die ihnen dabei helfen, diese Daten zu transformieren und daraus geschäftliche Erkenntnisse zu gewinnen. Die Verarbeitung unst{...}
Was ist Datenverwaltung? Beginnen wir mit einer Definition des Begriffs Datenverwaltung. Unter Datenverwaltung (oder auch Datenmanagement) versteht man das Organisieren, Verarbeiten, Speichern, Schützen und Analysieren der Daten eines Unternehmens wä{...}
Unternehmen sind heute mehr denn je auf Daten angewiesen. Um den Nutzen Ihrer Daten zu gewährleisten, sollten Sie die bestmögliche Datenplattform verwenden. Dies macht unter Umständen eine Datenmigration erforderlich. Wenn Sie Fragen zur Datenmigrati{...}
Was ist ein Dataset? Ein Dataset ist eine strukturierte Sammlung von Daten, die für die Analyse oder Verarbeitung organisiert und gemeinsam gespeichert werden. Die Daten in einem Dataset sind in der Regel in irgendeiner Weise aufeinander bezogen und {...}
In der hochgradig vernetzten Welt von heute sind Cybersecurity-Bedrohungen und Insider-Risiken ein ständiges Übel. Unternehmen benötigen einen Überblick darüber, was für Daten sie besitzen. Sie müssen die unbefugte Nutzung ihrer Daten verhindern und {...}
Was ist Datentransformation? Als Datentransformation bezeichnet man den Prozess der Umwandlung von Rohdaten, die aus Datenquellen extrahiert wurden, in verwertbare Datasets. Datenpipelines umfassen oft mehrere Datentransformationen, die ungeordnete I{...}
Was ist Deep Learning? Deep Learning ist ein Teilbereich des Machine Learning, das sich mit großen Datenmengen und Algorithmen befasst, die von der Struktur und Funktion des menschlichen Gehirns inspiriert sind. Deshalb werden Deep-Learning-Modelle o{...}
Dense Tensors speichern Werte in einem zusammenhängenden sequentiellen Speicherblock, in dem alle Werte dargestellt werden. Tensors oder mehrdimensionale Arrays werden in einer Vielzahl mehrdimensionaler Datenanalyseanwendungen verwendet. Es gibt ein{...}
Die Unified Data Analytics Platform von Databricks vereint Data Science mit Data Engineering und Business und hilft Unternehmen so, Innovation zu beschleunigen. Mit Databricks als einheitlicher Datenanalyseplattform können Sie Daten schnell und ohne {...}
Was ist ein digitaler Zwilling? Die klassische Definition des digitalen Zwillings lautet: „Ein digitaler Zwilling ist ein virtuelles Modell, das ein physisches Objekt präzise wiedergibt.“ – IBM[KVK4] Ein digitaler Zwilling erfasst mithilfe verschiede{...}
Was ist die DNA-Sequenzierung? Als DNA-Sequenzierung bezeichnet man das Verfahren zur Bestimmung der genauen Reihenfolge der Nukleotide der DNA (Desoxyribonukleinsäure). Eine Sequenzierung der DNA in der Reihenfolge der vier chemischen Bausteine – Ad{...}
Was sind Echtzeitanalysen? Echtzeitanalysen beziehen sich auf die Erfassung und Analyse von Streaming-Daten, sobald diese generiert werden. Die Latenzzeit zwischen der Generierung dieser Daten und ihrer Analyse ist dabei minimal. Echtzeitanalysen wer{...}
Was ist ein einheitliches Data Warehouse? Eine einheitliche Datenbank, auch Enterprise Data Warehouse genannt, speichert alle Information eines Unternehmens und macht sie unternehmensweit zugänglich. Heutzutage verwalten die meisten Unternehmen ihre {...}
Was sind Echtzeitdaten für den Einzelhandel? Einzelhandel in Echtzeit setzt Datenzugriff in Echtzeit voraus. Zugriff, Analyse und Compute erfolgten bisher batchbasiert. Die Abkehr von diesem Ansatz ermöglicht, dass Daten immer verfügbar sind, was Ent{...}
Als Anomalieerkennung bezeichnet man ein Verfahren zur Erfassung seltener Vorkommnisse oder Beobachtungen, die verdächtig erscheinen, weil sie sich statistisch von den übrigen Beobachtungen unterscheiden. Ein solches „anormales“ Verhalten deutet in d{...}
Was ist ETL? Da die Menge an Daten, Datenquellen und Datentypen in Unternehmen wächst, wird es immer wichtiger, diese Daten in Analytics-, Data-Science- und Machine-Learning-Initiativen zu nutzen, um geschäftliche Erkenntnisse abzuleiten. Die Notwend{...}
Beim Deep Learning ist ein Convolutional Neural Network (CNN oder auch ConvNet) eine Klasse von „tiefen“ neuronalen Netzen, die typischerweise zur Erkennung von Mustern in Bildern, aber auch für die Analyse räumlicher Daten, für maschinelles Sehen, z{...}
Feature Engineering für Machine Learning Feature Engineering – auch „Daten-Preprocessing“ genannt – bezeichnet die Abläufe bei der Umwandlung von Rohdaten in Features, die zur Entwicklung von Machine-Learning-Modellen verwendet werden können. Hier be{...}
Was ist Data Sharing? Als Data Sharing (gemeinsame Datennutzung) bezeichnet man die Möglichkeit, dieselben Daten mehreren Datenverbrauchern zur Verfügung zu stellen. Die stetig wachsende Menge an Daten ist heutzutage ein strategisches Gut für jedes U{...}
Generative KI verändert die Art und Weise, wie Menschen erschaffen, arbeiten und kommunizieren. Databricks erklärt, wie generative KI funktioniert und wohin sie als nächstes geht. {...}
Genomik ist ein Bereich innerhalb der Genetik, der sich mit der Sequenzierung und Analyse des Genoms eines Organismus befasst. Seine Hauptaufgabe besteht darin, die gesamte DNA-Sequenz oder die Zusammensetzung der Atome, aus denen die DNA besteht, un{...}
Was ist Overall Equipment Effectiveness? Die Overall Equipment Effectiveness(OEE, auf Deutsch: Gesamtanlageneffektivität) ist ein Maß dafür, wie gut ein Fertigungsbetrieb während der geplanten Betriebszeiten verglichen mit seinem vollen Potenzial aus{...}
HDFS HDFS (Hadoop Distributed File System) ist das primäre Speichersystem, das von Hadoop-Anwendungen verwendet wird. Dieses Open-Source-Framework zeichnet sich durch schnelle Übertragungen von Daten zwischen Knoten aus. Es wird häufig von Unternehme{...}
Was ist ein Hadoop-Cluster? Apache Hadoop ist ein Java-basiertes Open-Source-Softwareframework und eine Engine für parallele Datenverarbeitung. Es ermöglicht, dass Verarbeitungs-Tasks für Big Data Analytics in kleinere Tasks aufgeteilt werden, die mi{...}
Was ist das Hadoop-Ökosystem? Als Apache Hadoop-Ökosystem werden die verschiedenen Komponenten der Apache Hadoop-Softwarebibliothek bezeichnet. Es umfasst sowohl Open-Source-Projekte als auch eine ganze Reihe ergänzender Tools. Einige der bekannteren{...}
Als Hashtabelle [Hash-Map] bezeichnet man in der Informatik eine Datenstruktur, die auf Grundlage eines Schlüssels [einer eindeutigen Zeichenfolge oder Ganzzahl] praktisch direkten Zugriff auf Objekte bietet. Eine Hashtabelle verwendet eine Hashfunkt{...}
Was ist eine Hive-Datumsfunktion? Hive bietet viele integrierte Funktionen, die uns bei der Verarbeitung und Abfrage von Daten unterstützen. Diese Funktionen bieten unter anderem Stringbearbeitung, Datumsbearbeitungen, Typkonvertierungen, bedingte Op{...}
Was ist Hosted Spark? Apache Spark ist ein schnelles und universelles Cluster-Computing-System für Big Data, das auf Geschwindigkeit, Benutzerfreundlichkeit und fortschrittliche Analysen ausgelegt ist und ursprünglich 2009 an der University of Califo{...}
Was ist ein Jupyter-Notebook? Ein Jupyter-Notebook ist eine Open-Source-Webanwendung, mit der Data Scientists Dokumente erstellen und austauschen können, die Livecode, Gleichungen und weitere Multimediaressourcen enthalten. Wofür werden Jupyter-Noteb{...}
Was ist ein Keras-Modell? Keras ist eine High-Level-Bibliothek für Deep Learning, die auf Theano und Tensorflow aufsetzt. Sie ist in Python geschrieben und stellt eine saubere und bequeme Möglichkeit bereit, viele verschiedene Deep-Learning-Modelle z{...}
Kontinuierliche Anwendungen sind End-to-End-Anwendungen, die in Echtzeit auf Daten reagieren. Entwickler möchten eine einzige Programmierschnittstelle verwenden, um die Facetten kontinuierlicher Anwendungen zu unterstützen, die derzeit in separaten S{...}
Was ist ein künstliches neuronales Netz? Ein künstliches neuronales Netz (artificial neuron network, ANN) ist ein Computersystem, das der Funktionsweise der Neuronen im menschlichen Gehirn nachempfunden ist. Wie funktionieren künstliche neuronale Net{...}
Was ist das Lakehouse für den Einzelhandel? Das Lakehouse für den Einzelhandel ist das erste branchenspezifische Lakehouse von Databricks. Es hilft Einzelhändlern durch Lösungsbeschleuniger, Data-Sharing-Funktionen und ein Partner-Ökosystem, schnell {...}
Was ist eine Lambda-Architektur? Lambda-Architekturen sind eine Methode zur Verarbeitung großer Datenmengen (d. h. „Big Data“), die mit einem hybriden Ansatz Zugang zu Batch- und Stream-Verarbeitungsmethoden bietet. Mithilfe einer Lambda-Archite{...}
Was sind Large Language Models (LLMs)? Large Language Models (LLMs) stellen eine neue Klasse von Modellen für die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) dar, die ihre Vorgänger in Sachen Leistung und Kompetenz bei einer V{...}
Was ist Lieferkettenmanagement? Lieferkettenmanagement ist der Prozess der Planung, Umsetzung und Steuerung des Betriebs der Lieferkette mit dem Ziel, Produkte und Dienste effizient und effektiv zu produzieren und an den Endkunden zu liefern. Es umfa{...}
Was ist LLMOps? Large Language Model Operations (LLMOps) ist eine Bezeichnung für Praktiken, Verfahren und Tools, die für das betriebliche Management von Large Language Models (LLMs) in Produktionsumgebungen eingesetzt werden. Die jüngsten Fortschrit{...}
Die Machine Learning Library (MLlib) von Apache Spark ist auf Einfachheit, Skalierbarkeit und bequeme Integration mit anderen Tools ausgelegt. Dank der Skalierbarkeit, der Sprachkompatibilität und der Geschwindigkeit von Spark können sich Data Scient{...}
Was ist ein Machine-Learning-Modell? Ein Machine-Learning-Modell ist ein Programm, das Muster findet oder auf Basis eines zuvor ungesehenen Datasets Entscheidungen trifft. Bei der Verarbeitung natürlicher Sprache beispielsweise können Machine-Learnin{...}
Was ist Managed Spark? Mit einem Managed Spark-Service können Sie die Vorteile von Open-Source-Datentools für Batch-Verarbeitung, Abfragen, Streaming und Machine Learning nutzen. Mithilfe einer solchen Automatisierung können Sie bei Bedarf rasch Clus{...}
Was ist MapReduce? MapReduce ist ein Java-basiertes, verteiltes Ausführungsframework innerhalb des Apache-Hadoop-Ökosystems. Es verringert die Komplexität der verteilten Programmierung, indem es zwei Verarbeitungsschritte offenlegt, die Entwick{...}
Was ist eine materialisierte Ansicht? Eine materialisierte Ansicht ist ein Datenbankobjekt, das die Ergebnisse einer Abfrage als physische Tabelle speichert. Im Gegensatz zu üblichen Datenbankansichten, die virtuell sind und ihre Daten aus den zugrun{...}
Was versteht man unter Medallion-Architektur? Eine Medallion-Architektur ist ein Datendesignmuster, das zur logischen Organisation von Daten in einem Lakehouse verwendet wird, mit dem Ziel, die Struktur und Qualität der Daten inkrementell und progres{...}
Die Ausführung von Machine-Learning-Algorithmen umfasst üblicherweise eine Reihe von Aufgaben wie die Phasen für Vorverarbeitung, Feature-Extraktion, Modellanpassung und Validierung. Wenn Sie beispielsweise Textdokumente klassifizieren, müssen der Te{...}
Was ist MLOps? MLOps (Machine Learning Operations) ist eine Kernfunktion des Machine Learning Engineering. Es legt den Schwerpunkt auf die Prozessoptimierung bei der Überführung von Machine-Learning-Modellen in die Produktion sowie auf deren anschlie{...}
Als Modell-Risikomanagement bezeichnet man die Steuerung von Risiken, die sich aus auf falschen oder falsch verwendeten Modellen beruhenden und daher potenziell schädlichen Entscheidungen ergeben können. Ziel des Modell-Risikomanagements ist es, Verf{...}
Was ist Bedarfsplanung? Bedarfsplanung ist der Prozess zur Vorhersage des Verbraucherbedarfs (entspricht dem zukünftigen Umsatz). Konkret geht es darum, anhand quantitativer und qualitativer Daten zu prognostizieren, welches Produktsortiment die Kund{...}
Was ist ein neuronales Netz? Ein neuronales Netz ist ein Rechenmodell, dessen Schichtenstruktur der vernetzten Struktur von Neuronen im Gehirn ähnelt. Es besteht aus miteinander verbundenen Verarbeitungselementen – den so genannten Neuronen {...}
Was ist Open Banking? Open Banking ist eine sichere Möglichkeit, mit Zustimmung seitens der Kunden den Zugriff auf die Finanzdaten von Verbrauchern zu ermöglichen.² Angetrieben von Regulierungs-, Technologie- und Wettbewerbsdynamik, fordert Open Bank{...}
Was ist Orchestrierung? Unter dem Begriff „Orchestrierung“ versteht man die Koordination und Verwaltung mehrerer Computersysteme, Anwendungen und/oder Dienste. Dabei werden mehrere Aufgaben aneinandergereiht, um einen übergeordneten Workflow oder Pro{...}
Wenn es um Data Science geht, ist es wohl nicht übertrieben zu sagen, dass Sie die Arbeitsweise Ihres Unternehmens verändern können, wenn Sie das Potenzial Ihrer Daten mit pandas DataFrame voll ausschöpfen. Dazu benötigen Sie allerdings die richtige{...}
Was ist Parquet? Apache Parquet ist ein spaltenorientiertes Open-Source-Datendateiformat, das für eine effiziente Datenspeicherung und -abfrage entwickelt wurde. Es bietet effiziente Datenkomprimierungs- und Codierungsschemata mit verbesserter Leistu{...}
Was sind personalisierte Finanzdienstleistungen? Finanzprodukte und -dienstleistungen werden zunehmend zur Massenware und die Verbraucher werden anspruchsvoller, da Medien und Einzelhandel verstärkt auf personalisierte Erfahrungen setzen. Um wettbewe{...}
Was ist Predictive Analytics? Predictive Analytics bezeichnet eine Form der fortgeschrittenen Analytik, die sowohl neue als auch ältere Daten nutzt, um Muster zu erkennen und künftige Ergebnisse und Trends vorherzusagen. Wie funktioniert Predictive A{...}
PyCharm ist eine integrierte Entwicklungsumgebung (IDE) zur Computerprogrammierung, die für die Programmiersprache Python entwickelt wurde. Bei der Verwendung auf Databricks erstellt PyCharm standardmäßig eine virtuelle Python-Umgebung. Sie können j{...}
Was ist PySpark? Apache Spark ist in der Programmiersprache Scala geschrieben. PySpark soll vor allem die gemeinsame Nutzung von Apache Spark und Python unterstützen. Im Grunde genommen handelt es sich also um eine Python-API für Spark. Darüber hinau{...}
Bei RDD war von Anfang an die wichtigste benutzerorientierte API in Spark. Im Kern stellt ein RDD eine unveränderliche, verteilte Sammlung von Elementen Ihrer Daten dar, die auf die Knoten in Ihrem Cluster verteilt sind. Sie können parallel mit eine{...}
Was ist Retrieval Augmented Generation (RAG)? Retrieval Augmented Generation (RAG) ist ein Architekturkonzept, mit dem sich die Effizienz von LLM-Anwendungen (Large Language Model) durch Nutzung kundenspezifischer Daten verbessern lässt. Zu diesem Zw{...}
Was ist ein Schneeflockenschema? Ein Schneeflockenschema ist ein mehrdimensionales Datenmodell, das eine Erweiterung eines Sternschemas darstellt, bei dem die Dimensionstabellen in Unterdimensionen aufgeteilt sind. Schneeflockenschemata werden häufig{...}
Serverless computing is the latest evolution of the compute infrastructure. Organizations used to need physical servers to run web applications. Then the rise of cloud computing enabled them to create virtual servers — although they still had to take{...}
Wenn Sie mit Spark arbeiten, werden Ihnen folgende drei APIs begegnen: DataFrames, Datasets und RDDsrt Was sind Resilient Distributed Datasets? Bei RDD bzw. Resilient Distributed Datasets handelt es sich um eine Sammlung von Datensätzen mit verteilte{...}
Was ist Spark Elasticsearch? Spark Elasticsearch ist eine verteilte NoSQL-Datenbank zur Speicherung, Abfrage und Verwaltung dokumentenorientierter und halbstrukturierter Daten. Es handelt sich um eine als Open Source auf GitHub erhältliche RESTful-Su{...}
Data Scientists, Data Analysts und ganz allgemein BI-Nutzer greifen bei Datenuntersuchungen häufig auf interaktive SQL-Abfragen zurück. Spark SQL ist ein Spark-Modul zur Verarbeitung strukturierter Daten. Es stellt eine Programmierabstraktion namens {...}
Apache Spark Streaming ist die Vorgängergeneration der Streaming-Engine von Apache Spark. Es gibt keine Updates mehr für Spark Streaming und es ist ein Auslaufprojekt. Es gibt eine neuere und einfacher zu verwendende Streaming-Engine in Apache Spark,{...}
Spark-Anwendungen umfassen zwei Arten von Prozessen: einen Driver-Prozess und eine Reihe von Executor-Prozessen. Der Driver-Prozess führt Ihre main()-Funktion aus. Er befindet sich auf einem Knoten im Cluster und ist für dreierlei verantwortlich: die{...}
Was ist Spark-Leistungsoptimierung? Die Spark-Leistungsoptimierung von Spark bezeichnet den Vorgang, bei dem Einstellungen angepasst werden, um die Verwendung von Speicher, Prozessorkernen und Instanzen im System zu optimieren. Dieser Prozess garanti{...}
Was ist Sparklyr? Sparklyr ist ein Open-Source-Paket, das eine Schnittstelle zwischen R und Apache Spark bereitstellt. Dank der Fähigkeit von Spark, mit verteilten Daten mit geringer Latenz zu interagieren, können Sie jetzt die Funktionen von Spark i{...}
SparkR ist ein Tool zum Ausführen von R in Spark. Es folgt den gleichen Prinzipien wie alle anderen Sprachbindungen von Spark. Um SparkR zu verwenden, importieren wir es einfach in unsere Umgebung und führen unseren Code aus. Es ist der Python-API se{...}
Python bietet eine integrierte Bibliothek namens Numpy zur Bearbeitung mehrdimensionaler Arrays. Die Organisation und Nutzung dieser Bibliothek ist eine Hauptvoraussetzung für die Entwicklung der pytensor-Bibliothek. Sptensor ist eine Klasse, die den{...}
Was ist ein Sternschema? Ein Sternschema ist ein mehrdimensionales Datenmodell, mit dem Daten in einer Datenbank so organisiert werden, dass sie leicht zu verstehen und zu analysieren sind. Sternschemata können auf Data Warehouses, Datenbanken, Data {...}
Wie funktionieren Streaming-Analysen? Die Streaming-Analyse – auch Event Stream Processing genannt – bezeichnet die Analyse riesiger Pools aktueller, in Übertragung befindlicher Daten durch fortlaufende Abfragen: die sogenannten Event Streams. Diese{...}
Structured Streaming ist eine High-Level-API für die Verarbeitung von Streams, die mit Spark 2.2 produktionsreif wurde. Mit Structured Streaming stehen Ihnen die Operationen, die Sie im Batch-Modus mithilfe der strukturierten Spark-APIs durchfüh{...}
Im November 2015 veröffentlichte Google sein Open-Source-Framework für maschinelles Lernen unter dem Namen TensorFlow. Es unterstützt Deep Learning, neuronale Netzwerke und allgemeine numerische Berechnungen auf CPUs, GPUs und GPU-Clustern. Zu den g{...}
Was ist die Tensorflow-Estimator-API? Estimators bilden ein vollständiges Modell ab, wirken dabei aber nur auf die wenigsten Benutzer intuitiv. Die Estimator-API stellt Methoden zum Trainieren des Modells, zum Beurteilen der Modellgenauigkeit und zum{...}
Was ist das Tungsten-Projekt? Tungsten ist der Codename für ein Rahmenprojekt, mit dem Änderungen an der Ausführungs-Engine von Apache Spark vorgenommen werden sollen. Der Schwerpunkt liegt dabei auf einer wesentlich effizienteren Nutzung von Speiche{...}
Auf der diesjährigen F8 hat Facebook Unified Artificial Intelligence (UAI) angekündigt. Hiermit werden zwei spezielle Deep-Learning-Frameworks zusammengeführt, die Facebook entwickelt und ausgelagert hat: PyTorch widmete sich schwerpunktmäßig der For{...}
Unified Data Analytics ist eine neue Kategorie von Lösungen, die die Datenverarbeitung mit KI-Technologien zusammenführen. Dadurch wird KI für Unternehmen viel leichter nutzbar, d. h., sie können ihre KI-Initiativen deutlich schneller umsetzen. {...}
What is a vector database? A vector database is a specialized database designed to store and manage data as high-dimensional vectors. The term comes from vectors, which are mathematical representations of features or attributes contained in data. In {...}
Was ist vorausschauende Wartung? Kurz gesagt geht es bei der vorausschauenden Wartung darum, herauszufinden, wann ein Asset gewartet werden sollte und welche spezifischen Wartungsaktivitäten durchgeführt werden müssen. Dabei wird der tatsächliche Zus{...}
Data Intelligence ist der Prozess, bei dem KI-Systeme (Künstliche Intelligenz) eingesetzt werden, um aus den Daten eines Unternehmens zu lernen, sie zu verstehen und daraus Schlüsse zu ziehen. Dies ermöglicht die Erstellung maßgeschneiderter KI-Anwen{...}
Apache Hadoop ist eine Java-basierte Open-Source-Softwareplattform, die Datenverarbeitung und -speicherung für Big-Data-Anwendungen verwaltet. Die Plattform verteilt Hadoop-Big-Data- und -Analyseaufträge auf die Knoten eines Rechenclusters und zerleg{...}