Wie funktioniert Schwein verarbeiten von unstrukturierten Daten, während Hive nicht kann?
Laut diese und sonstige Verweise Schwein ist besser als Hive verarbeiten von unstrukturierten Daten. So, die Daten zuerst gereinigt mit Schwein und dann verarbeitet mit Bienenkorb.
Aber, in der data factory, können keine Daten werden in einem schönen, einheitlichen Staat noch. Dieses Schwein macht eine gute Passform für diesen Anwendungsfall, denn es unterstützt Daten-auch teilweise oder unbekannte schemas, und semi-strukturierte oder unstrukturierte Daten handelt.
Möchte mehr wissen, wie Schweine behandeln können unstrukturierte Daten, während Hive nicht.
- Möchten Sie vielleicht, dies zu Lesen: bluecanarydata.com/hive-for-un-structured-data
Du musst angemeldet sein, um einen Kommentar abzugeben.
Schwein ist gebaut, um die Prozesse der schema-weniger Daten-sets..in der Erwägung, dass im hive setzen wir ein schema gespeichert, die in derby, oder kann konfiguriert sein zum speichern in mysql..Nun es ist nicht klar, was Sie suchen!
Der wesentliche Unterschied zwischen Pig und Hive ist, dass Schwein ist eine Datenfluss-Sprache, während Hive ist eine deklarative Sprache. Mit diesem wird gesagt, Schwein verarbeiten kann, unstrukturierte Daten ohne schema definiert in der Erwägung, dass Hive erfordert ein schema.Auch in einigen Fällen Schwein kann auch verwendet werden, um verbinden von Daten mit einem schema, das die Oberhand über den Hive. Hive hingegen wandelt Hadoop in einem dataware house und wirkt wie ein SQL-Dialekt. Schließlich, möchten Sie vielleicht wissen, über Jaql die anderen Datenfluss-Sprache. Im Gegensatz zu Schwein, seine native Datenstruktur-format ist JSON. Ebenso Jaql nicht erforderlich, ein schema. Hoffe, das hilft.