Unterschied zwischen partition und index im hive
Ich bin neu in hadoop und hive und ich würde wissen,
was ist der Unterschied zwischen index und die partition, in hive? Wenn ich mit index und, wenn die partition?
Danke!
Du musst angemeldet sein, um einen Kommentar abzugeben.
Indizes werden neu-und weiterentwickelt (Funktionen Hinzugefügt), aber derzeit Indizes nur für einzelne Tabellen und können nicht verwendet werden, die mit externen Tabellen. Die Erstellung eines Indexes erstellt eine separate Tabelle. Indizes können partitioniert werden (matching der Partitionen der Basistabelle). Indizes werden verwendet, um die Geschwindigkeit der Suche von Daten innerhalb von Tabellen.
Partitionen liefern Aufspaltung der Daten in das hdfs-Ebene, erstellen von sub-Verzeichnisse für jede partition. Partitionierung ermöglicht es die Anzahl der Dateien zu Lesen und so viele Daten gesucht, die in einer Abfrage begrenzt werden. Damit dies jedoch vorkommen, partition Spalten muss angegeben werden, in Ihren WHERE-Klauseln.
Beim erstellen einer Daten-Modell können Sie bestimmen, die optimale Verwendung der Indizes und/oder Partitionen basierend auf der Größe der Daten und dem erwarteten Muster.
Sonia,
Unten ist ein Abschnitt aus einem Buch, das für Sie nützlich sein kann.
Programming Hive-Buch Seite 117