Was ist Data Lake? Es ist ArchiTektur: Data Lake-Tutorial
Was ist Data Lake?
Ein Data Lake ist ein Speicher-Repository, das groรe Mengen strukturierter, halbstrukturierter und unstrukturierter Daten speichern kann. Es ist ein Ort, an dem jede Art von Daten in ihrem nativen Format gespeichert werden kann, ohne feste Beschrรคnkungen hinsichtlich der Kontogrรถรe oder der Datei. Es bietet eine hohe Datenmenge zur Steigerung der Analyseleistung und der nativen Integration.
Data Lake ist wie ein groรer Behรคlter, der einem echten See und Flรผssen sehr รคhnlich ist. Genau wie bei einem See gibt es mehrere Zuflรผsse, und ein Data Lake enthรคlt strukturierte und unstrukturierte Daten, von Maschine zu Maschine und Protokolle, die in Echtzeit durchflieรen.

Der Data Lake demokratisiert Daten und ist eine kostengรผnstige Mรถglichkeit, alle Daten einer Organisation zur spรคteren Verarbeitung zu speichern. Research Analysten kรถnnen sich auf das Finden von Bedeutungsmustern in Daten und nicht auf das Finden der Daten selbst konzentrieren.
Im Gegensatz zu einem hierarchischen Data Warehousing Wรคhrend Daten in Dateien und Ordnern gespeichert werden, hat Data Lake eine flache Architektur. Jedes Datenelement in einem Data Lake erhรคlt eine eindeutige Kennung und ist mit einer Reihe von Metadateninformationen versehen.
Warum Data Lake?
Das Hauptziel beim Aufbau eines Data Lake besteht darin, Datenwissenschaftlern eine uneingeschrรคnkte Sicht auf die Daten zu bieten.
Grรผnde fรผr die Nutzung von Data Lake sind:
- Mit dem Aufkommen von Speicher-Engines wie Hadoop Das Speichern unterschiedlicher Informationen ist einfacher geworden. Mit einem Data Lake besteht keine Notwendigkeit, Daten in einem unternehmensweiten Schema zu modellieren.
- Mit der Zunahme des Datenvolumens, der Datenqualitรคt und der Metadaten steigt auch die Qualitรคt der Analysen.
- Data Lake bietet geschรคftliche Agilitรคt
- Maschinelles lernen und kรผnstliche Intelligenz kann genutzt werden, um gewinnbringende Vorhersagen zu treffen.
- Es bietet der durchfรผhrenden Organisation einen Wettbewerbsvorteil.
- Es gibt keine Datensilostruktur. Data Lake bietet eine 360-Grad-Ansicht der Kunden und macht die Analyse robuster.
Datensee Architektur

Die Abbildung zeigt die Architektur eines Business Data Lake. Die unteren Ebenen stellen Daten dar, die grรถรtenteils im Ruhezustand sind, wรคhrend die oberen Ebenen Echtzeit-Transaktionsdaten zeigen. Diese Daten flieรen ohne oder mit geringer Latenz durch das System. Im Folgenden sind wichtige Ebenen in Data Lake aufgefรผhrt. ArchiStruktur:
- Aufnahmeebene: Die Ebenen auf der linken Seite stellen die Datenquellen dar. Die Daten kรถnnen stapelweise oder in Echtzeit in den Data Lake geladen werden
- Insights-Stufe: Die Ebenen auf der rechten Seite stellen die Forschungsseite dar, auf der Erkenntnisse aus dem System genutzt werden. SQL, NoSQL-Abfragen oder sogar Excel kรถnnten fรผr die Datenanalyse verwendet werden.
- HDFS ist eine kostengรผnstige Lรถsung fรผr strukturierte und unstrukturierte Daten. Es ist eine Zielzone fรผr alle Daten, die im System ruhen.
- Destillationsstufe Entnimmt Daten vom Speicherreifen und wandelt sie zur einfacheren Analyse in strukturierte Daten um.
- Verarbeitungsstufe Fรผhren Sie analytische Algorithmen und Benutzerabfragen mit unterschiedlichen interaktiven Batch-Abfragen in Echtzeit aus, um strukturierte Daten fรผr eine einfachere Analyse zu generieren.
- Einheitliche Betriebsebene regelt die Systemverwaltung und -รผberwachung. Es umfasst Prรผfungs- und Leistungsmanagement, Datenmanagement, Workflow-Management.
Schlรผsseldatensee Concepts
Im Folgenden sind die wichtigsten Data Lake-Konzepte aufgefรผhrt, die man verstehen muss, um den Data Lake vollstรคndig zu verstehen Architektur

Datenaufnahme
Durch die Datenaufnahme kรถnnen Konnektoren Daten aus verschiedenen Datenquellen abrufen und in den Data Lake laden.
Die Datenaufnahme unterstรผtzt:
- Alle Arten von strukturierten, halbstrukturierten und unstrukturierten Daten.
- Mehrere Aufnahmen wie Batch, Echtzeit, einmaliges Laden.
- Viele Arten von Datenquellen wie Datenbanken, Webserver, E-Mails, IoT, und FTP.
Datenspeicher
Der Datenspeicher sollte skalierbar sein, eine kostengรผnstige Speicherung bieten und einen schnellen Zugriff auf die Datenexploration ermรถglichen. Es sollte verschiedene Datenformate unterstรผtzen.
Datenverwaltung
Data Governance ist ein Prozess zur Verwaltung der Verfรผgbarkeit, Benutzerfreundlichkeit, Sicherheit und Integritรคt der in einer Organisation verwendeten Daten.
Sicherheit
Sicherheit muss in jeder Ebene des Data Lake implementiert werden. Es beginnt mit Lagerung, Ausgrabung und Konsum. Das Grundbedรผrfnis besteht darin, den Zugriff fรผr unbefugte Benutzer zu verhindern. Es sollte verschiedene Tools fรผr den Datenzugriff mit einer einfach zu navigierenden Benutzeroberflรคche und Dashboards unterstรผtzen.
Authentifizierung, Buchhaltung, Autorisierung und Datenschutz sind einige wichtige Merkmale der Data Lake-Sicherheit.
Datenqualitรคt
Die Datenqualitรคt ist ein wesentlicher Bestandteil der Data Lake-Architektur. Daten werden verwendet, um Geschรคftswert zu ermitteln. Das Extrahieren von Erkenntnissen aus Daten schlechter Qualitรคt fรผhrt zu Erkenntnissen schlechter Qualitรคt.
Datenerkennung
Die Datenermittlung ist ein weiterer wichtiger Schritt, bevor Sie mit der Vorbereitung von Daten oder Analysen beginnen kรถnnen. In dieser Phase wird die Tagging-Technik verwendet, um das Datenverstรคndnis auszudrรผcken, indem die im Data Lake erfassten Daten organisiert und interpretiert werden.
Datenprรผfung
Zwei wichtige Datenprรผfungsaufgaben sind die Verfolgung von รnderungen am Schlรผsseldatensatz.
- Verfolgen Sie รnderungen an wichtigen Datensatzelementen
- Erfasst, wie/wann/wer an diesen Elementen รnderungen vornimmt.
Die Datenprรผfung hilft bei der Bewertung von Risiken und Compliance.
Datenherkunft
Diese Komponente befasst sich mit der Herkunft der Daten. Es geht hauptsรคchlich darum, wohin es sich im Laufe der Zeit bewegt und was mit ihm passiert. Es erleichtert die Fehlerkorrektur in einem Datenanalyseprozess vom Ursprung bis zum Ziel.
Datenexploration
Es ist die Anfangsphase der Datenanalyse. Es ist von entscheidender Bedeutung, den richtigen Datensatz zu identifizieren, bevor mit der Datenexploration begonnen wird.
Alle gegebenen Komponenten mรผssen zusammenarbeiten, um eine wichtige Rolle bei der einfachen Entwicklung und Erkundung der Umgebung von Data Lakes zu spielen.
Reifestadien von Data Lake
Die Definition der Reifegrade von Data Lakes unterscheidet sich von Lehrbuch zu Lehrbuch. Der Kern bleibt jedoch derselbe. Nach der Reife erfolgt die Definition der Stadien aus der Sicht eines Laien.

Stufe 1: Daten im groรen Maรstab verarbeiten und aufnehmen
Diese erste Phase der Datenreife beinhaltet die Verbesserung der Fรคhigkeit, Daten zu transformieren und zu analysieren. Hier mรผssen Geschรคftsinhaber die Tools finden, die ihren Fรคhigkeiten entsprechen, um mehr Daten zu erhalten und analytische Anwendungen zu erstellen.
Stufe 2: Aufbau der analytischen Muskeln
Dies ist ein zweiter Schritt, bei dem es darum geht, die Fรคhigkeit zur Transformation und Analyse von Daten zu verbessern. In dieser Phase verwenden Unternehmen das Tool, das ihren Fรคhigkeiten am besten entspricht. Sie beginnen, mehr Daten zu erfassen und Anwendungen zu erstellen. Dabei werden die Fรคhigkeiten des Enterprise Data Warehouse und des Data Lake gemeinsam genutzt.
Stufe 3: EDW und Data Lake arbeiten im Einklang
Bei diesem Schritt geht es darum, Daten und Analysen mรถglichst vielen Menschen zugรคnglich zu machen. In dieser Phase beginnen der Data Lake und das Enterprise Data Warehouse in einer Einheit zu arbeiten. Beide tragen ihren Teil zur Analytik bei
Stufe 4: Unternehmensfรคhigkeit im See
In dieser Reifephase des Data Lake werden dem Data Lake Unternehmensfunktionen hinzugefรผgt. Einfรผhrung von Information Governance, Funktionen zur Verwaltung des Informationslebenszyklus und Metadatenverwaltung. Allerdings kรถnnen nur sehr wenige Organisationen diesen Reifegrad erreichen, aber dieser Wert wird in Zukunft noch zunehmen.
Best Practices fรผr die Data Lake-Implementierung
- ArchiStrukturelle Komponenten, ihre Interaktion und identifizierte Produkte sollten native Datentypen unterstรผtzen
- Das Design von Data Lake sollte sich an dem orientieren, was verfรผgbar ist, und nicht an dem, was benรถtigt wird. Das Schema und die Datenanforderung werden erst definiert, wenn sie abgefragt werden
- Das Design sollte sich an Einwegkomponenten orientieren, die in die Service-API integriert sind.
- Datenerkennung, -aufnahme, -speicherung, -verwaltung, -qualitรคt, -transformation und -visualisierung sollten unabhรคngig voneinander verwaltet werden.
- Die Data Lake-Architektur sollte auf eine bestimmte Branche zugeschnitten sein. Sie sollte sicherstellen, dass die fรผr diese Domรคne erforderlichen Funktionen ein fester Bestandteil des Designs sind.
- Ein schnelleres Onboarding neu entdeckter Datenquellen ist wichtig
- Data Lake hilft einem maรgeschneiderten Management, den grรถรtmรถglichen Nutzen zu erzielen
- Der Data Lake sollte bestehende Techniken und Methoden zur Unternehmensdatenverwaltung unterstรผtzen
Herausforderungen beim Aufbau eines Data Lake:
- In Data Lake ist das Datenvolumen hรถher, daher muss der Prozess stรคrker auf programmgesteuerte Verwaltung angewiesen sein
- Es ist schwierig, mit spรคrlichen, unvollstรคndigen und volatilen Daten umzugehen
- Ein grรถรerer Umfang an Datensรคtzen und Quellen erfordert eine umfassendere Datenverwaltung und -unterstรผtzung
Unterschied zwischen Data Lakes und Data Warehouse
| Kenngrรถรen | Datenseen | Data Warehousing |
|---|---|---|
| Datum | Data Lakes speichern alles. | Data Warehouse konzentriert sich nur auf Geschรคftsprozesse. |
| Verarbeitung | Die Daten liegen grรถรtenteils unverarbeitet vor | Hochverarbeitete Daten. |
| Art der Daten | Es kann unstrukturiert, halbstrukturiert und strukturiert sein. | Es ist grรถรtenteils in tabellarischer Form und Struktur. |
| Aufgabe | Teilen Sie die Datenverwaltung | Optimiert fรผr den Datenabruf |
| Agilitรคt | รuรerst agil, je nach Bedarf konfigurieren und neu konfigurieren. | Im Vergleich zu Data Lake ist es weniger agil und hat eine feste Konfiguration. |
| Nutzer | Data Lake wird hauptsรคchlich von Data Scientists verwendet | Geschรคftsleute nutzen hรคufig Data Warehouse |
| Lagerung | Data Lakes-Design fรผr kostengรผnstige Speicherung. | Es werden teure Speicher verwendet, die schnelle Reaktionszeiten ermรถglichen |
| Sicherheit | Bietet weniger Kontrolle. | Ermรถglicht eine bessere Kontrolle der Daten. |
| Ersatz von EDW | Data Lake kann eine Quelle fรผr EDW sein | Ergรคnzung zu EDW (kein Ersatz) |
| Schema | Schema beim Lesen (keine vordefinierten Schemata) | Schema beim Schreiben (vordefinierte Schemata) |
| Datenverarbeitung | Hilft bei der schnellen Aufnahme neuer Daten. | Zeitaufwรคndig, neue Inhalte einzufรผhren. |
| Datengranularitรคt | Daten mit einem geringen Detaillierungsgrad oder einer geringen Granularitรคt. | Daten auf zusammenfassender oder aggregierter Detailebene. |
| Zubehรถr | Kann Open Source/Tools wie Hadoop/Map Reduce verwenden | Meistens kommerzielle Werkzeuge. |
Vorteile und Risiken der Verwendung von Data Lake
Hier sind einige groรe Vorteile bei der Verwendung eines Data Lake:
- Hilft umfassend bei der Produktionisierung und erweiterten Analysen
- Bietet kostengรผnstige Skalierbarkeit und Flexibilitรคt
- Bietet Mehrwert durch unbegrenzte Datentypen
- Reduziert die langfristigen Betriebskosten
- Ermรถglicht eine kostengรผnstige Speicherung von Dateien
- Schnelle Anpassung an รnderungen
- Der Hauptvorteil von Data Lake ist Zentralisierung verschiedener Inhaltsquellen
- Benutzer aus verschiedenen Abteilungen kรถnnen รผber die ganze Welt verstreut sein flexibler Zugang zu den Daten
Risiko der Nutzung von Data Lake:
- Nach einiger Zeit kรถnnte Data Lake an Relevanz und Dynamik verlieren
- Beim Entwurf von Data Lake besteht ein grรถรeres Risiko
- Unstrukturierte Daten kรถnnen zu unkontrolliertem Chaos, unbrauchbaren Daten, unterschiedlichen und komplexen Tools, unternehmensweiter Zusammenarbeit, einheitlicher, konsistenter und gemeinsamer
- Es erhรถht auch die Speicher- und Rechenkosten
- Es gibt keine Mรถglichkeit, Erkenntnisse von anderen zu erhalten, die mit den Daten gearbeitet haben, da es keinen Bericht รผber die Herkunft der Ergebnisse frรผherer Analysten gibt
- Das grรถรte Risiko von Data Lakes liegt in der Sicherheit und Zugriffskontrolle. Manchmal kรถnnen Daten unbeaufsichtigt in einem See abgelegt werden, da fรผr einige der Daten mรถglicherweise Datenschutz- und Regulierungsanforderungen bestehen
Zusammenfassung
- Ein Data Lake ist ein Speicher-Repository, das groรe Mengen strukturierter, halbstrukturierter und unstrukturierter Daten speichern kann.
- Das Hauptziel beim Aufbau eines Data Lake besteht darin, Datenwissenschaftlern eine uneingeschrรคnkte Sicht auf die Daten zu bieten.
- Unified Operations Tier, Processing Tier, Distillation Tier und HDFS sind wichtige Schichten des Data Lake Architektur
- Datenaufnahme, Datenspeicherung, Datenqualitรคt, Datenprรผfung, Datenexploration und Datenerkennung sind einige wichtige Komponenten von Data Lake Architektur
- Das Design von Data Lake sollte sich an dem orientieren, was verfรผgbar ist, und nicht an dem, was benรถtigt wird.
- Data Lake reduziert die langfristigen Betriebskosten und ermรถglicht eine wirtschaftliche Speicherung von Dateien
- Das grรถรte Risiko von Data Lakes liegt in der Sicherheit und Zugriffskontrolle. Manchmal kรถnnen Daten unbeaufsichtigt in einem See abgelegt werden, da fรผr einige der Daten mรถglicherweise Datenschutz- und Regulierungsanforderungen bestehen.
