Was ist Data Lake? Es ist ArchiTektur: Data Lake-Tutorial

Was ist Data Lake?

Ein Data Lake ist ein Speicher-Repository, das groรŸe Mengen strukturierter, halbstrukturierter und unstrukturierter Daten speichern kann. Es ist ein Ort, an dem jede Art von Daten in ihrem nativen Format gespeichert werden kann, ohne feste Beschrรคnkungen hinsichtlich der KontogrรถรŸe oder der Datei. Es bietet eine hohe Datenmenge zur Steigerung der Analyseleistung und der nativen Integration.

Data Lake ist wie ein groรŸer Behรคlter, der einem echten See und Flรผssen sehr รคhnlich ist. Genau wie bei einem See gibt es mehrere Zuflรผsse, und ein Data Lake enthรคlt strukturierte und unstrukturierte Daten, von Maschine zu Maschine und Protokolle, die in Echtzeit durchflieรŸen.

Datensee
Datensee

Der Data Lake demokratisiert Daten und ist eine kostengรผnstige Mรถglichkeit, alle Daten einer Organisation zur spรคteren Verarbeitung zu speichern. Research Analysten kรถnnen sich auf das Finden von Bedeutungsmustern in Daten und nicht auf das Finden der Daten selbst konzentrieren.

Im Gegensatz zu einem hierarchischen Data Warehousing Wรคhrend Daten in Dateien und Ordnern gespeichert werden, hat Data Lake eine flache Architektur. Jedes Datenelement in einem Data Lake erhรคlt eine eindeutige Kennung und ist mit einer Reihe von Metadateninformationen versehen.

Warum Data Lake?

Das Hauptziel beim Aufbau eines Data Lake besteht darin, Datenwissenschaftlern eine uneingeschrรคnkte Sicht auf die Daten zu bieten.

Grรผnde fรผr die Nutzung von Data Lake sind:

  • Mit dem Aufkommen von Speicher-Engines wie Hadoop Das Speichern unterschiedlicher Informationen ist einfacher geworden. Mit einem Data Lake besteht keine Notwendigkeit, Daten in einem unternehmensweiten Schema zu modellieren.
  • Mit der Zunahme des Datenvolumens, der Datenqualitรคt und der Metadaten steigt auch die Qualitรคt der Analysen.
  • Data Lake bietet geschรคftliche Agilitรคt
  • Maschinelles lernen und kรผnstliche Intelligenz kann genutzt werden, um gewinnbringende Vorhersagen zu treffen.
  • Es bietet der durchfรผhrenden Organisation einen Wettbewerbsvorteil.
  • Es gibt keine Datensilostruktur. Data Lake bietet eine 360-Grad-Ansicht der Kunden und macht die Analyse robuster.

Datensee Architektur

Datensee Architektur
Datensee Architektur

Die Abbildung zeigt die Architektur eines Business Data Lake. Die unteren Ebenen stellen Daten dar, die grรถรŸtenteils im Ruhezustand sind, wรคhrend die oberen Ebenen Echtzeit-Transaktionsdaten zeigen. Diese Daten flieรŸen ohne oder mit geringer Latenz durch das System. Im Folgenden sind wichtige Ebenen in Data Lake aufgefรผhrt. ArchiStruktur:

  1. Aufnahmeebene: Die Ebenen auf der linken Seite stellen die Datenquellen dar. Die Daten kรถnnen stapelweise oder in Echtzeit in den Data Lake geladen werden
  2. Insights-Stufe: Die Ebenen auf der rechten Seite stellen die Forschungsseite dar, auf der Erkenntnisse aus dem System genutzt werden. SQL, NoSQL-Abfragen oder sogar Excel kรถnnten fรผr die Datenanalyse verwendet werden.
  3. HDFS ist eine kostengรผnstige Lรถsung fรผr strukturierte und unstrukturierte Daten. Es ist eine Zielzone fรผr alle Daten, die im System ruhen.
  4. Destillationsstufe Entnimmt Daten vom Speicherreifen und wandelt sie zur einfacheren Analyse in strukturierte Daten um.
  5. Verarbeitungsstufe Fรผhren Sie analytische Algorithmen und Benutzerabfragen mit unterschiedlichen interaktiven Batch-Abfragen in Echtzeit aus, um strukturierte Daten fรผr eine einfachere Analyse zu generieren.
  6. Einheitliche Betriebsebene regelt die Systemverwaltung und -รผberwachung. Es umfasst Prรผfungs- und Leistungsmanagement, Datenmanagement, Workflow-Management.

Schlรผsseldatensee Concepts

Im Folgenden sind die wichtigsten Data Lake-Konzepte aufgefรผhrt, die man verstehen muss, um den Data Lake vollstรคndig zu verstehen Architektur

Wesentliche Concepts von Data Lake
Wesentliche Concepts von Data Lake

Datenaufnahme

Durch die Datenaufnahme kรถnnen Konnektoren Daten aus verschiedenen Datenquellen abrufen und in den Data Lake laden.

Die Datenaufnahme unterstรผtzt:

  • Alle Arten von strukturierten, halbstrukturierten und unstrukturierten Daten.
  • Mehrere Aufnahmen wie Batch, Echtzeit, einmaliges Laden.
  • Viele Arten von Datenquellen wie Datenbanken, Webserver, E-Mails, IoT, und FTP.

Datenspeicher

Der Datenspeicher sollte skalierbar sein, eine kostengรผnstige Speicherung bieten und einen schnellen Zugriff auf die Datenexploration ermรถglichen. Es sollte verschiedene Datenformate unterstรผtzen.

Datenverwaltung

Data Governance ist ein Prozess zur Verwaltung der Verfรผgbarkeit, Benutzerfreundlichkeit, Sicherheit und Integritรคt der in einer Organisation verwendeten Daten.

Sicherheit

Sicherheit muss in jeder Ebene des Data Lake implementiert werden. Es beginnt mit Lagerung, Ausgrabung und Konsum. Das Grundbedรผrfnis besteht darin, den Zugriff fรผr unbefugte Benutzer zu verhindern. Es sollte verschiedene Tools fรผr den Datenzugriff mit einer einfach zu navigierenden Benutzeroberflรคche und Dashboards unterstรผtzen.

Authentifizierung, Buchhaltung, Autorisierung und Datenschutz sind einige wichtige Merkmale der Data Lake-Sicherheit.

Datenqualitรคt

Die Datenqualitรคt ist ein wesentlicher Bestandteil der Data Lake-Architektur. Daten werden verwendet, um Geschรคftswert zu ermitteln. Das Extrahieren von Erkenntnissen aus Daten schlechter Qualitรคt fรผhrt zu Erkenntnissen schlechter Qualitรคt.

Datenerkennung

Die Datenermittlung ist ein weiterer wichtiger Schritt, bevor Sie mit der Vorbereitung von Daten oder Analysen beginnen kรถnnen. In dieser Phase wird die Tagging-Technik verwendet, um das Datenverstรคndnis auszudrรผcken, indem die im Data Lake erfassten Daten organisiert und interpretiert werden.

Datenprรผfung

Zwei wichtige Datenprรผfungsaufgaben sind die Verfolgung von ร„nderungen am Schlรผsseldatensatz.

  1. Verfolgen Sie ร„nderungen an wichtigen Datensatzelementen
  2. Erfasst, wie/wann/wer an diesen Elementen ร„nderungen vornimmt.

Die Datenprรผfung hilft bei der Bewertung von Risiken und Compliance.

Datenherkunft

Diese Komponente befasst sich mit der Herkunft der Daten. Es geht hauptsรคchlich darum, wohin es sich im Laufe der Zeit bewegt und was mit ihm passiert. Es erleichtert die Fehlerkorrektur in einem Datenanalyseprozess vom Ursprung bis zum Ziel.

Datenexploration

Es ist die Anfangsphase der Datenanalyse. Es ist von entscheidender Bedeutung, den richtigen Datensatz zu identifizieren, bevor mit der Datenexploration begonnen wird.

Alle gegebenen Komponenten mรผssen zusammenarbeiten, um eine wichtige Rolle bei der einfachen Entwicklung und Erkundung der Umgebung von Data Lakes zu spielen.

Reifestadien von Data Lake

Die Definition der Reifegrade von Data Lakes unterscheidet sich von Lehrbuch zu Lehrbuch. Der Kern bleibt jedoch derselbe. Nach der Reife erfolgt die Definition der Stadien aus der Sicht eines Laien.

Reifestadien von Data Lake
Reifestadien von Data Lake

Stufe 1: Daten im groรŸen MaรŸstab verarbeiten und aufnehmen

Diese erste Phase der Datenreife beinhaltet die Verbesserung der Fรคhigkeit, Daten zu transformieren und zu analysieren. Hier mรผssen Geschรคftsinhaber die Tools finden, die ihren Fรคhigkeiten entsprechen, um mehr Daten zu erhalten und analytische Anwendungen zu erstellen.

Stufe 2: Aufbau der analytischen Muskeln

Dies ist ein zweiter Schritt, bei dem es darum geht, die Fรคhigkeit zur Transformation und Analyse von Daten zu verbessern. In dieser Phase verwenden Unternehmen das Tool, das ihren Fรคhigkeiten am besten entspricht. Sie beginnen, mehr Daten zu erfassen und Anwendungen zu erstellen. Dabei werden die Fรคhigkeiten des Enterprise Data Warehouse und des Data Lake gemeinsam genutzt.

Stufe 3: EDW und Data Lake arbeiten im Einklang

Bei diesem Schritt geht es darum, Daten und Analysen mรถglichst vielen Menschen zugรคnglich zu machen. In dieser Phase beginnen der Data Lake und das Enterprise Data Warehouse in einer Einheit zu arbeiten. Beide tragen ihren Teil zur Analytik bei

Stufe 4: Unternehmensfรคhigkeit im See

In dieser Reifephase des Data Lake werden dem Data Lake Unternehmensfunktionen hinzugefรผgt. Einfรผhrung von Information Governance, Funktionen zur Verwaltung des Informationslebenszyklus und Metadatenverwaltung. Allerdings kรถnnen nur sehr wenige Organisationen diesen Reifegrad erreichen, aber dieser Wert wird in Zukunft noch zunehmen.

Best Practices fรผr die Data Lake-Implementierung

  • ArchiStrukturelle Komponenten, ihre Interaktion und identifizierte Produkte sollten native Datentypen unterstรผtzen
  • Das Design von Data Lake sollte sich an dem orientieren, was verfรผgbar ist, und nicht an dem, was benรถtigt wird. Das Schema und die Datenanforderung werden erst definiert, wenn sie abgefragt werden
  • Das Design sollte sich an Einwegkomponenten orientieren, die in die Service-API integriert sind.
  • Datenerkennung, -aufnahme, -speicherung, -verwaltung, -qualitรคt, -transformation und -visualisierung sollten unabhรคngig voneinander verwaltet werden.
  • Die Data Lake-Architektur sollte auf eine bestimmte Branche zugeschnitten sein. Sie sollte sicherstellen, dass die fรผr diese Domรคne erforderlichen Funktionen ein fester Bestandteil des Designs sind.
  • Ein schnelleres Onboarding neu entdeckter Datenquellen ist wichtig
  • Data Lake hilft einem maรŸgeschneiderten Management, den grรถรŸtmรถglichen Nutzen zu erzielen
  • Der Data Lake sollte bestehende Techniken und Methoden zur Unternehmensdatenverwaltung unterstรผtzen

Herausforderungen beim Aufbau eines Data Lake:

  • In Data Lake ist das Datenvolumen hรถher, daher muss der Prozess stรคrker auf programmgesteuerte Verwaltung angewiesen sein
  • Es ist schwierig, mit spรคrlichen, unvollstรคndigen und volatilen Daten umzugehen
  • Ein grรถรŸerer Umfang an Datensรคtzen und Quellen erfordert eine umfassendere Datenverwaltung und -unterstรผtzung

Unterschied zwischen Data Lakes und Data Warehouse

KenngrรถรŸen Datenseen Data Warehousing
Datum Data Lakes speichern alles. Data Warehouse konzentriert sich nur auf Geschรคftsprozesse.
Verarbeitung Die Daten liegen grรถรŸtenteils unverarbeitet vor Hochverarbeitete Daten.
Art der Daten Es kann unstrukturiert, halbstrukturiert und strukturiert sein. Es ist grรถรŸtenteils in tabellarischer Form und Struktur.
Aufgabe Teilen Sie die Datenverwaltung Optimiert fรผr den Datenabruf
Agilitรคt ร„uรŸerst agil, je nach Bedarf konfigurieren und neu konfigurieren. Im Vergleich zu Data Lake ist es weniger agil und hat eine feste Konfiguration.
Nutzer Data Lake wird hauptsรคchlich von Data Scientists verwendet Geschรคftsleute nutzen hรคufig Data Warehouse
Lagerung Data Lakes-Design fรผr kostengรผnstige Speicherung. Es werden teure Speicher verwendet, die schnelle Reaktionszeiten ermรถglichen
Sicherheit Bietet weniger Kontrolle. Ermรถglicht eine bessere Kontrolle der Daten.
Ersatz von EDW Data Lake kann eine Quelle fรผr EDW sein Ergรคnzung zu EDW (kein Ersatz)
Schema Schema beim Lesen (keine vordefinierten Schemata) Schema beim Schreiben (vordefinierte Schemata)
Datenverarbeitung Hilft bei der schnellen Aufnahme neuer Daten. Zeitaufwรคndig, neue Inhalte einzufรผhren.
Datengranularitรคt Daten mit einem geringen Detaillierungsgrad oder einer geringen Granularitรคt. Daten auf zusammenfassender oder aggregierter Detailebene.
Zubehรถr Kann Open Source/Tools wie Hadoop/Map Reduce verwenden Meistens kommerzielle Werkzeuge.

Vorteile und Risiken der Verwendung von Data Lake

Hier sind einige groรŸe Vorteile bei der Verwendung eines Data Lake:

  • Hilft umfassend bei der Produktionisierung und erweiterten Analysen
  • Bietet kostengรผnstige Skalierbarkeit und Flexibilitรคt
  • Bietet Mehrwert durch unbegrenzte Datentypen
  • Reduziert die langfristigen Betriebskosten
  • Ermรถglicht eine kostengรผnstige Speicherung von Dateien
  • Schnelle Anpassung an ร„nderungen
  • Der Hauptvorteil von Data Lake ist Zentralisierung verschiedener Inhaltsquellen
  • Benutzer aus verschiedenen Abteilungen kรถnnen รผber die ganze Welt verstreut sein flexibler Zugang zu den Daten

Risiko der Nutzung von Data Lake:

  • Nach einiger Zeit kรถnnte Data Lake an Relevanz und Dynamik verlieren
  • Beim Entwurf von Data Lake besteht ein grรถรŸeres Risiko
  • Unstrukturierte Daten kรถnnen zu unkontrolliertem Chaos, unbrauchbaren Daten, unterschiedlichen und komplexen Tools, unternehmensweiter Zusammenarbeit, einheitlicher, konsistenter und gemeinsamer
  • Es erhรถht auch die Speicher- und Rechenkosten
  • Es gibt keine Mรถglichkeit, Erkenntnisse von anderen zu erhalten, die mit den Daten gearbeitet haben, da es keinen Bericht รผber die Herkunft der Ergebnisse frรผherer Analysten gibt
  • Das grรถรŸte Risiko von Data Lakes liegt in der Sicherheit und Zugriffskontrolle. Manchmal kรถnnen Daten unbeaufsichtigt in einem See abgelegt werden, da fรผr einige der Daten mรถglicherweise Datenschutz- und Regulierungsanforderungen bestehen

Zusammenfassung

  • Ein Data Lake ist ein Speicher-Repository, das groรŸe Mengen strukturierter, halbstrukturierter und unstrukturierter Daten speichern kann.
  • Das Hauptziel beim Aufbau eines Data Lake besteht darin, Datenwissenschaftlern eine uneingeschrรคnkte Sicht auf die Daten zu bieten.
  • Unified Operations Tier, Processing Tier, Distillation Tier und HDFS sind wichtige Schichten des Data Lake Architektur
  • Datenaufnahme, Datenspeicherung, Datenqualitรคt, Datenprรผfung, Datenexploration und Datenerkennung sind einige wichtige Komponenten von Data Lake Architektur
  • Das Design von Data Lake sollte sich an dem orientieren, was verfรผgbar ist, und nicht an dem, was benรถtigt wird.
  • Data Lake reduziert die langfristigen Betriebskosten und ermรถglicht eine wirtschaftliche Speicherung von Dateien
  • Das grรถรŸte Risiko von Data Lakes liegt in der Sicherheit und Zugriffskontrolle. Manchmal kรถnnen Daten unbeaufsichtigt in einem See abgelegt werden, da fรผr einige der Daten mรถglicherweise Datenschutz- und Regulierungsanforderungen bestehen.

Fassen Sie diesen Beitrag mit folgenden Worten zusammen: