Hive-Tutorial für Anfänger
Zusammenfassung des Hive-Tutorials
Apache Hive hilft bei der schnellen Abfrage und Verwaltung großer Datenmengen. Es ist ein ETL-Tool für das Hadoop-Ökosystem. In diesem Apache Hive-Tutorial für Anfänger lernen Sie die Hive-Grundlagen und wichtige Themen wie HQL-Abfragen, Datenextraktionen, Partitionen, Buckets usw. kennen. Diese Hive-Tutorialreihe hilft Ihnen dabei, die Konzepte und Grundlagen von Hive zu erlernen.
Was sollte ich wissen?
Um dieses Hive-Abfrage-Tutorial zu erlernen, benötigen Sie Grundkenntnisse SQL-, Hadoop und Kenntnisse anderer Datenbanken sind von zusätzlichem Nutzen.
Lehrplan für den Hive-Kurs
Einführung
👉 Lessauf 1 | Was ist Hive? - Architektur & Modi |
👉 Lessauf 2 | HIVE herunterladen und installieren – So laden Sie HIVE herunter und installieren es Ubuntu |
👉 Lessauf 3 | HIVE-Metastore-Konfiguration — Warum verwenden? MySQL? |
👉 Lessauf 4 | Hive-Datentypen – Datenbank in Hive erstellen und löschen |
Fortgeschrittene Sachen
👉 Lessauf 1 | Hive Tabelle erstellen – Typen und ihre Verwendung |
👉 Lessauf 2 | Hive-Partitionen und -Eimer – Lernen Sie anhand von Beispielen |
👉 Lessauf 3 | Hive-Indizes und -Ansicht – Lernen Sie anhand von Beispielen |
👉 Lessauf 4 | Hive-Abfragen – Lernen Sie anhand von Beispielen |
👉 Lessauf 5 | Hive-Join- und SubQuery-Tutorial – Lernen Sie anhand von Beispielen |
👉 Lessauf 6 | Tutorial zur Hive-Abfragesprache — Eingebaut Operatoren |
👉 Lessauf 7 | Hive-Funktion — Integrierte und benutzerdefinierte Funktionen |
👉 Lessauf 8 | Hive ETL – Laden von JSON-, XML- und Textdatenbeispielen |
Einführung in Hive
Hive entwickelte sich zu einer Data-Warehousing-Lösung, die auf dem Hadoop Map-Reduce-Framework aufbaut.
Die Größe der Datensätze, die in der Branche gesammelt und analysiert werden Business Intelligence wächst und verteuert in gewisser Weise herkömmliche Data Warehousing-Lösungen. Hadoop mit dem MapReduce-Framework wird als alternative Lösung für die Analyse großer Datensätze verwendet. Obwohl sich Hadoop für die Arbeit an großen Datenmengen als nützlich erwiesen hat, ist sein MapReduce-Framework sehr niedrig und erfordert von Programmierern das Schreiben benutzerdefinierter Programme, die schwierig zu warten und wiederzuverwenden sind. Hive kommt hierher, um Programmierer zu retten.
Hive-Motor kompiliert diese Abfragen in Map-Reduce-Jobs, die auf Hadoop ausgeführt werden. Darüber hinaus können auch benutzerdefinierte Map-Reduce-Skripte in Abfragen eingebunden werden. Hive arbeitet mit in Tabellen gespeicherten Daten, die aus primitiven Datentypen und Sammlungsdatentypen wie Arrays und Maps bestehen.
Hive verfügt über eine Befehlszeilen-Shell-Schnittstelle, mit der Tabellen erstellt und Abfragen ausgeführt werden können.
Die Hive-Abfragesprache ähnelt SQL und unterstützt Unterabfragen. Mit der Hive-Abfragesprache ist es möglich, MapReduce-Joins über Hive-Tabellen hinweg durchzuführen. Es hat eine Unterstützung für einfach SQL-ähnliche Funktionen– CONCAT, SUBSTR, ROUND usw., und Aggregationsfunktionen– SUM, COUNT, MAX usw. Es werden auch die Klauseln GROUP BY und SORT BY unterstützt. Es ist auch möglich, benutzerdefinierte Funktionen in der Hive-Abfragesprache zu schreiben.
Was ist Hive?
Apache Hive ist ein Data-Warehouse-Framework zum Abfragen und Analysieren von in HDFS gespeicherten Daten. Es wurde auf Basis von Hadoop entwickelt. Hive ist eine Open-Source-Software zur Analyse großer Datenmengen auf Hadoop. Es bietet eine SQL-ähnliche deklarative Sprache namens HiveQL, um Abfragen auszudrücken. Mit Hive-QL verknüpfte Benutzer mit SQL kann Datenanalysen sehr einfach durchführen.
Hive vs. Kartenreduzierung
Bevor wir uns für eine dieser beiden Optionen entscheiden, müssen wir uns einige ihrer Funktionen ansehen.
Bei der Auswahl zwischen Hive und MapReduce werden folgende Faktoren berücksichtigt:
- Art der Daten
- Datenmenge
- Komplexität des Codes
Hive vs. Kartenreduzierung?
Merkmal | Bienenstock | Karte verkleinern |
---|---|---|
Sprache | Es unterstützt eine SQL-ähnliche Abfragesprache für die Interaktion und Datenmodellierung |
|
Abstraktionsebene | Höhere Abstraktionsebene zusätzlich zu HDFS | Niedrigere Abstraktionsebene |
Effizienz im Code | Vergleichsweise geringer als Map Reduce | Bietet hohe Effizienz |
Umfang des Codes | Less Anzahl der zur Ausführung benötigten Codezeilen | Es müssen mehr Codezeilen definiert werden |
Art der erforderlichen Entwicklungsarbeit | Less Entwicklungsarbeit erforderlich | Weitere Entwicklungsarbeit erforderlich |