Was ist Data Lake? Es ist ArchiTektur: Data Lake-Tutorial

Was ist Data Lake?

Ein Data Lake ist ein Speicher-Repository, das große Mengen strukturierter, halbstrukturierter und unstrukturierter Daten speichern kann. Es ist ein Ort, an dem jede Art von Daten in ihrem nativen Format gespeichert werden kann, ohne feste Beschränkungen hinsichtlich der Kontogröße oder der Datei. Es bietet eine hohe Datenmenge zur Steigerung der Analyseleistung und der nativen Integration.

Data Lake ist wie ein großer Behälter, der einem echten See und Flüssen sehr ähnlich ist. Genau wie bei einem See gibt es mehrere Zuflüsse, und ein Data Lake enthält strukturierte und unstrukturierte Daten, von Maschine zu Maschine und Protokolle, die in Echtzeit durchfließen.

Der Data Lake demokratisiert Daten und ist eine kostengünstige Möglichkeit, alle Daten einer Organisation zur späteren Verarbeitung zu speichern. Research Analysten können sich auf das Finden von Bedeutungsmustern in Daten und nicht auf das Finden der Daten selbst konzentrieren.

Im Gegensatz zu einem hierarchischen Data Warehousing Während Daten in Dateien und Ordnern gespeichert werden, hat Data Lake eine flache Architektur. Jedes Datenelement in einem Data Lake erhält eine eindeutige Kennung und ist mit einer Reihe von Metadateninformationen versehen.

Warum Data Lake?

Das Hauptziel beim Aufbau eines Data Lake besteht darin, Datenwissenschaftlern eine uneingeschränkte Sicht auf die Daten zu bieten.

Gründe für die Nutzung von Data Lake sind:

Mit dem Aufkommen von Speicher-Engines wie Hadoop Das Speichern unterschiedlicher Informationen ist einfacher geworden. Mit einem Data Lake besteht keine Notwendigkeit, Daten in einem unternehmensweiten Schema zu modellieren.
Mit der Zunahme des Datenvolumens, der Datenqualität und der Metadaten steigt auch die Qualität der Analysen.
Data Lake bietet geschäftliche Agilität
Maschinelles lernen und künstliche Intelligenz kann genutzt werden, um gewinnbringende Vorhersagen zu treffen.
Es bietet der durchführenden Organisation einen Wettbewerbsvorteil.
Es gibt keine Datensilostruktur. Data Lake bietet eine 360-Grad-Ansicht der Kunden und macht die Analyse robuster.

Datensee Architektur

Die Abbildung zeigt die Architektur eines Business Data Lake. Die unteren Ebenen stellen Daten dar, die größtenteils im Ruhezustand sind, während die oberen Ebenen Echtzeit-Transaktionsdaten zeigen. Diese Daten fließen ohne oder mit geringer Latenz durch das System. Im Folgenden sind wichtige Ebenen in Data Lake aufgeführt. ArchiStruktur:

Aufnahmeebene: Die Ebenen auf der linken Seite stellen die Datenquellen dar. Die Daten können stapelweise oder in Echtzeit in den Data Lake geladen werden
Insights-Stufe: Die Ebenen auf der rechten Seite stellen die Forschungsseite dar, auf der Erkenntnisse aus dem System genutzt werden. SQL, NoSQL-Abfragen oder sogar Excel könnten für die Datenanalyse verwendet werden.
HDFS ist eine kostengünstige Lösung für strukturierte und unstrukturierte Daten. Es ist eine Zielzone für alle Daten, die im System ruhen.
Destillationsstufe Entnimmt Daten vom Speicherreifen und wandelt sie zur einfacheren Analyse in strukturierte Daten um.
Verarbeitungsstufe Führen Sie analytische Algorithmen und Benutzerabfragen mit unterschiedlichen interaktiven Batch-Abfragen in Echtzeit aus, um strukturierte Daten für eine einfachere Analyse zu generieren.
Einheitliche Betriebsebene regelt die Systemverwaltung und -überwachung. Es umfasst Prüfungs- und Leistungsmanagement, Datenmanagement, Workflow-Management.

Schlüsseldatensee Concepts

Im Folgenden sind die wichtigsten Data Lake-Konzepte aufgeführt, die man verstehen muss, um den Data Lake vollständig zu verstehen Architektur

Datenaufnahme

Durch die Datenaufnahme können Konnektoren Daten aus verschiedenen Datenquellen abrufen und in den Data Lake laden.

Die Datenaufnahme unterstützt:

Alle Arten von strukturierten, halbstrukturierten und unstrukturierten Daten.
Mehrere Aufnahmen wie Batch, Echtzeit, einmaliges Laden.
Viele Arten von Datenquellen wie Datenbanken, Webserver, E-Mails, IoT, und FTP.

Datenspeicher

Der Datenspeicher sollte skalierbar sein, eine kostengünstige Speicherung bieten und einen schnellen Zugriff auf die Datenexploration ermöglichen. Es sollte verschiedene Datenformate unterstützen.

Datenverwaltung

Data Governance ist ein Prozess zur Verwaltung der Verfügbarkeit, Benutzerfreundlichkeit, Sicherheit und Integrität der in einer Organisation verwendeten Daten.

Sicherheit

Sicherheit muss in jeder Ebene des Data Lake implementiert werden. Es beginnt mit Lagerung, Ausgrabung und Konsum. Das Grundbedürfnis besteht darin, den Zugriff für unbefugte Benutzer zu verhindern. Es sollte verschiedene Tools für den Datenzugriff mit einer einfach zu navigierenden Benutzeroberfläche und Dashboards unterstützen.

Authentifizierung, Buchhaltung, Autorisierung und Datenschutz sind einige wichtige Merkmale der Data Lake-Sicherheit.

Datenqualität

Die Datenqualität ist ein wesentlicher Bestandteil der Data Lake-Architektur. Daten werden verwendet, um Geschäftswert zu ermitteln. Das Extrahieren von Erkenntnissen aus Daten schlechter Qualität führt zu Erkenntnissen schlechter Qualität.

Datenerkennung

Die Datenermittlung ist ein weiterer wichtiger Schritt, bevor Sie mit der Vorbereitung von Daten oder Analysen beginnen können. In dieser Phase wird die Tagging-Technik verwendet, um das Datenverständnis auszudrücken, indem die im Data Lake erfassten Daten organisiert und interpretiert werden.

Datenprüfung

Zwei wichtige Datenprüfungsaufgaben sind die Verfolgung von Änderungen am Schlüsseldatensatz.

Verfolgen Sie Änderungen an wichtigen Datensatzelementen
Erfasst, wie/wann/wer an diesen Elementen Änderungen vornimmt.

Die Datenprüfung hilft bei der Bewertung von Risiken und Compliance.

Datenherkunft

Diese Komponente befasst sich mit der Herkunft der Daten. Es geht hauptsächlich darum, wohin es sich im Laufe der Zeit bewegt und was mit ihm passiert. Es erleichtert die Fehlerkorrektur in einem Datenanalyseprozess vom Ursprung bis zum Ziel.

Datenexploration

Es ist die Anfangsphase der Datenanalyse. Es ist von entscheidender Bedeutung, den richtigen Datensatz zu identifizieren, bevor mit der Datenexploration begonnen wird.

Alle gegebenen Komponenten müssen zusammenarbeiten, um eine wichtige Rolle bei der einfachen Entwicklung und Erkundung der Umgebung von Data Lakes zu spielen.

Reifestadien von Data Lake

Die Definition der Reifegrade von Data Lakes unterscheidet sich von Lehrbuch zu Lehrbuch. Der Kern bleibt jedoch derselbe. Nach der Reife erfolgt die Definition der Stadien aus der Sicht eines Laien.

Stufe 1: Daten im großen Maßstab verarbeiten und aufnehmen

Diese erste Phase der Datenreife beinhaltet die Verbesserung der Fähigkeit, Daten zu transformieren und zu analysieren. Hier müssen Geschäftsinhaber die Tools finden, die ihren Fähigkeiten entsprechen, um mehr Daten zu erhalten und analytische Anwendungen zu erstellen.

Stufe 2: Aufbau der analytischen Muskeln

Dies ist ein zweiter Schritt, bei dem es darum geht, die Fähigkeit zur Transformation und Analyse von Daten zu verbessern. In dieser Phase verwenden Unternehmen das Tool, das ihren Fähigkeiten am besten entspricht. Sie beginnen, mehr Daten zu erfassen und Anwendungen zu erstellen. Dabei werden die Fähigkeiten des Enterprise Data Warehouse und des Data Lake gemeinsam genutzt.

Stufe 3: EDW und Data Lake arbeiten im Einklang

Bei diesem Schritt geht es darum, Daten und Analysen möglichst vielen Menschen zugänglich zu machen. In dieser Phase beginnen der Data Lake und das Enterprise Data Warehouse in einer Einheit zu arbeiten. Beide tragen ihren Teil zur Analytik bei

Stufe 4: Unternehmensfähigkeit im See

In dieser Reifephase des Data Lake werden dem Data Lake Unternehmensfunktionen hinzugefügt. Einführung von Information Governance, Funktionen zur Verwaltung des Informationslebenszyklus und Metadatenverwaltung. Allerdings können nur sehr wenige Organisationen diesen Reifegrad erreichen, aber dieser Wert wird in Zukunft noch zunehmen.

Best Practices für die Data Lake-Implementierung

ArchiStrukturelle Komponenten, ihre Interaktion und identifizierte Produkte sollten native Datentypen unterstützen
Das Design von Data Lake sollte sich an dem orientieren, was verfügbar ist, und nicht an dem, was benötigt wird. Das Schema und die Datenanforderung werden erst definiert, wenn sie abgefragt werden
Das Design sollte sich an Einwegkomponenten orientieren, die in die Service-API integriert sind.
Datenerkennung, -aufnahme, -speicherung, -verwaltung, -qualität, -transformation und -visualisierung sollten unabhängig voneinander verwaltet werden.
Die Data Lake-Architektur sollte auf eine bestimmte Branche zugeschnitten sein. Sie sollte sicherstellen, dass die für diese Domäne erforderlichen Funktionen ein fester Bestandteil des Designs sind.
Ein schnelleres Onboarding neu entdeckter Datenquellen ist wichtig
Data Lake hilft einem maßgeschneiderten Management, den größtmöglichen Nutzen zu erzielen
Der Data Lake sollte bestehende Techniken und Methoden zur Unternehmensdatenverwaltung unterstützen

Herausforderungen beim Aufbau eines Data Lake:

In Data Lake ist das Datenvolumen höher, daher muss der Prozess stärker auf programmgesteuerte Verwaltung angewiesen sein
Es ist schwierig, mit spärlichen, unvollständigen und volatilen Daten umzugehen
Ein größerer Umfang an Datensätzen und Quellen erfordert eine umfassendere Datenverwaltung und -unterstützung

Unterschied zwischen Data Lakes und Data Warehouse

Kenngrößen	Datenseen	Data Warehousing
Datum	Data Lakes speichern alles.	Data Warehouse konzentriert sich nur auf Geschäftsprozesse.
Verarbeitung	Die Daten liegen größtenteils unverarbeitet vor	Hochverarbeitete Daten.
Art der Daten	Es kann unstrukturiert, halbstrukturiert und strukturiert sein.	Es ist größtenteils in tabellarischer Form und Struktur.
Aufgabe	Teilen Sie die Datenverwaltung	Optimiert für den Datenabruf
Agilität	Äußerst agil, je nach Bedarf konfigurieren und neu konfigurieren.	Im Vergleich zu Data Lake ist es weniger agil und hat eine feste Konfiguration.
Nutzer	Data Lake wird hauptsächlich von Data Scientists verwendet	Geschäftsleute nutzen häufig Data Warehouse
Lagerung	Data Lakes-Design für kostengünstige Speicherung.	Es werden teure Speicher verwendet, die schnelle Reaktionszeiten ermöglichen
Sicherheit	Bietet weniger Kontrolle.	Ermöglicht eine bessere Kontrolle der Daten.
Ersatz von EDW	Data Lake kann eine Quelle für EDW sein	Ergänzung zu EDW (kein Ersatz)
Schema	Schema beim Lesen (keine vordefinierten Schemata)	Schema beim Schreiben (vordefinierte Schemata)
Datenverarbeitung	Hilft bei der schnellen Aufnahme neuer Daten.	Zeitaufwändig, neue Inhalte einzuführen.
Datengranularität	Daten mit einem geringen Detaillierungsgrad oder einer geringen Granularität.	Daten auf zusammenfassender oder aggregierter Detailebene.
Zubehör	Kann Open Source/Tools wie Hadoop/Map Reduce verwenden	Meistens kommerzielle Werkzeuge.

Vorteile und Risiken der Verwendung von Data Lake

Hier sind einige große Vorteile bei der Verwendung eines Data Lake:

Hilft umfassend bei der Produktionisierung und erweiterten Analysen
Bietet kostengünstige Skalierbarkeit und Flexibilität
Bietet Mehrwert durch unbegrenzte Datentypen
Reduziert die langfristigen Betriebskosten
Ermöglicht eine kostengünstige Speicherung von Dateien
Schnelle Anpassung an Änderungen
Der Hauptvorteil von Data Lake ist Zentralisierung verschiedener Inhaltsquellen
Benutzer aus verschiedenen Abteilungen können über die ganze Welt verstreut sein flexibler Zugang zu den Daten

Risiko der Nutzung von Data Lake:

Nach einiger Zeit könnte Data Lake an Relevanz und Dynamik verlieren
Beim Entwurf von Data Lake besteht ein größeres Risiko
Unstrukturierte Daten können zu unkontrolliertem Chaos, unbrauchbaren Daten, unterschiedlichen und komplexen Tools, unternehmensweiter Zusammenarbeit, einheitlicher, konsistenter und gemeinsamer
Es erhöht auch die Speicher- und Rechenkosten
Es gibt keine Möglichkeit, Erkenntnisse von anderen zu erhalten, die mit den Daten gearbeitet haben, da es keinen Bericht über die Herkunft der Ergebnisse früherer Analysten gibt
Das größte Risiko von Data Lakes liegt in der Sicherheit und Zugriffskontrolle. Manchmal können Daten unbeaufsichtigt in einem See abgelegt werden, da für einige der Daten möglicherweise Datenschutz- und Regulierungsanforderungen bestehen

Zusammenfassung

Ein Data Lake ist ein Speicher-Repository, das große Mengen strukturierter, halbstrukturierter und unstrukturierter Daten speichern kann.
Das Hauptziel beim Aufbau eines Data Lake besteht darin, Datenwissenschaftlern eine uneingeschränkte Sicht auf die Daten zu bieten.
Unified Operations Tier, Processing Tier, Distillation Tier und HDFS sind wichtige Schichten des Data Lake Architektur
Datenaufnahme, Datenspeicherung, Datenqualität, Datenprüfung, Datenexploration und Datenerkennung sind einige wichtige Komponenten von Data Lake Architektur
Das Design von Data Lake sollte sich an dem orientieren, was verfügbar ist, und nicht an dem, was benötigt wird.
Data Lake reduziert die langfristigen Betriebskosten und ermöglicht eine wirtschaftliche Speicherung von Dateien
Das größte Risiko von Data Lakes liegt in der Sicherheit und Zugriffskontrolle. Manchmal können Daten unbeaufsichtigt in einem See abgelegt werden, da für einige der Daten möglicherweise Datenschutz- und Regulierungsanforderungen bestehen.