Tag: hdfs

Hadoop Distributed File System (HDFS) ist das primäre storage-system von Hadoop-Anwendungen. HDFS erzeugt mehrere Replikate von Daten-Blöcke und verteilt Sie auf die compute-Knoten im gesamten cluster zu ermöglichen zuverlässige, extrem schnelle Berechnungen.

Wie kann ich hinzufügen neuer Knoten zu einem live-hbase/hadoop-cluster?

2 Antworten

Ich einige batch-jobs mit Daten-Eingängen, die sich ständig verändern und ich habe Probleme bei der Bereitstellung der Kapazität. Ich bin mit wirbeln zu tun, die intial setup, aber sobald ich starten, zum Beispiel, 5 Rechner, die ich

Hadoop 0.23.9 Wie zu Beginn datanodes

3 Antworten

Wie es scheint, ich kann nicht hadoop zu starten, richtig. Ich bin mit hadoop 0.23.9: [msknapp@localhost sbin]$ hadoop namenode -format ... [msknapp@localhost sbin]$ ./start-dfs.sh Starting namenodes on [localhost] localhost: starting namenode, logging to /usr/local/cloud/hadoop-0.23.9/logs/hadoop-msknapp-namenode-localhost.localdomain.out localhost: starting datanode,

hadoop hdfs mapreduce yarn

Speichern, JSON, HDFS mit python

2 Antworten

Habe ich ein python-script, das derzeit greift auf eine API gibt JSON. Es nimmt dann den JSON-string und speichert es als eine Datei auf dem lokalen Dateisystem, auf dem ich dann verschieben Sie Sie in HDFS manuell.

hadoop hdfs python

hdfs kopieren von mehreren Dateien auf ein und dasselbe Ziel-Verzeichnis

1 Antworten

Habe ich gelernt, dass, wenn Sie möchten, kopieren Sie mehrere Dateien von einem hadoop-Ordner an einen anderen hadoop-Ordner können Sie besser erstellen einer großen "hdfs dfs -cp' - Anweisung mit vielen Komponenten, erstellen, anstatt mehrere hdfs dfs

copy cp hadoop hdfs subdirectory

Debugging in der SCHWEINE-UDF

2 Antworten

Ich bin neu in Hadoop/PIG. Ich habe eine grundlegende Frage. Haben wir eine Logging-Funktion in der SCHWEINE-UDF? Ich habe geschrieben eine UDF, die ich brauche, um zu überprüfen, Ich anmelden müssen, bestimmte Aussagen zu überprüfen, die fließen.

apache-pig hadoop hdfs

Wie man datanode timeout?

3 Antworten

Ich habe ein 3 node hadoop-setup, mit dem Replikations-Faktor als 2. Wenn einer meiner datanode stirbt, namenode auf, wartet 10 Minuten, bevor Sie es zu entfernen aus dem live-Knoten. Bis dann meine hdfs schreibt fail sagen schlecht

hadoop hdfs

Gibt es eine Möglichkeit zum download einer HDFS Datei mit WebHDFS REST-API?

1 Antworten

Gibt es eine Möglichkeit, von der kann ich das herunterladen einer Datei aus dem HDFS mit WebHDFS REST-API?Der nächste, den ich erreicht haben, ist die Verwendung der open-operation zum Lesen der Datei und speichern den Inhalt. curl

hadoop hdfs webhdfs

localhost: ERROR: Cannot set priority von datanode-Prozess 32156

4 Antworten

Ich versuche zu installieren hadoop auf ubuntu 16.04 aber beim starten des hadoop-es wird mir folgende Fehlermeldung localhost: ERROR: Cannot set priority of datanode process 32156. Starting secondary namenodes [it-OptiPlex-3020] 2017-09-18 21:13:48,343 WARN util.NativeCodeLoader: Unable to load

datanode hadoop hdfs

Gelesen von Kafka und schreiben auf hdfs in Parkett

3 Antworten

Ich bin neu in der BigData-eco-system und die Art der Vorbereitungen. Habe ich gelesen mehrere Artikel, die über das Lesen einer kafka-Thema der Verwendung von spark-streaming, aber würde gerne wissen, ob es möglich ist, zu Lesen von

apache-kafka apache-spark hadoop hdfs parquet

Wie Automatisieren Von Hadoop-Trash Cleanup

1 Antworten

Kann ich klar Papierkorb unter meinem user-Ordner durch ausführen hadoop fs -expunge Dies ruft entfernen von Dateien, die älter sind als die fs.trash.interval Wert. Gibt es eine für expunge automatisch geschehen, sich zu erholen Festplattenspeicher? Außerdem sehe

cloudera hadoop hdfs

Ausgabe des oozie während dem Start job

3 Antworten

Den Befehl : oozie job -oozie http://localhost:8080/oozie -config /home/hadoop/Desktop/Cloudera/oozie-2.3.0-cdh3u1/examples/apps/no-op/job.properties -run Fehlermeldung: Error: IO_ERROR : java.net.ConnectException: Connection refused Ist die oozie-Dienst ausgeführt? Ja oozie-Dienst ausgeführt wird . $ oozie admin -oozie localhost:11000/oozie -status im System-Modus: NORMAL $ oozie

cloudera hadoop hdfs

HBase - Was ist der Unterschied zwischen WAL und MemStore?

1 Antworten

Ich versuche zu verstehen, die HBase Architektur. Ich kann sehen, dass zwei verschiedene Begriffe für den gleichen Zweck. Write Ahead Logs und Memstore beide werden verwendet, um neue Daten zu speichern, die noch nicht gespeichert worden ist,

architecture hadoop hbase hdfs

Hadoop: cannot set default-Dateisystem wie HDFS in core-site.xml

1 Antworten

Ich bin mit Hadoop 1.0.3 in einer Pseudo-Distributed mode. Und meine conf/core-site.xml ist wie folgt festgelegt: <configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> <property> <name>mapred.child.tmp</name> <value>/home/administrator/hadoop/temp</value> </property> </configuration> Also habe ich geglaubt, dass meine Standard-Dateisystem festgelegt ist HDFS. Allerdings,

filesystems hadoop hdfs

Sqoop - Ist es möglich, import-Flachbild-Dateien in HDFS

3 Antworten

Ich weiß, dass es möglich ist, zu importieren RDBM die Daten von HDFS über sqoop, aber ich würde gerne wissen, ob es möglich ist, zu importieren, Flachbild-Dateien sowie. Ist es beispielsweise möglich, für den import einer Datei

bigdata hadoop hdfs sqoop

Erstellen Von Hive-Metastore-Datenbank-Tabellen-Fehler

2 Antworten

Ich bin durch den Cloudera Manager (free edition), und ich den Punkt erreicht, wo die Assistenten ist das erstellen der Hive-Metastore-Datenbank. Dieser Fehler wird angezeigt und Stoppt den Konfigurationsprozess. Verwendung von /var/run/cloudera-scm-agent/Prozess - /40-hive-metastore-erstellen-Tabellen/hadoop-conf als HADOOP_CONF_DIR Ich

cloudera database hadoop hdfs hive

wie überspringen Papierkorb und wirft partition von Verwalteten Tabellen mit alter drop partition-Befehl

4 Antworten

Gibt es eine Möglichkeit zum überspringen Sie den Papierkorb beim löschen einer partition mit dem folgenden Befehl auf einem Verwalteten Tabelle in Hive? ALTER TABLE <table> DROP PARITION (<partition_name>) Ähnlich zu dem, was wir tun, wenn Dateien

hadoop hdfs hive

Wie übergeben Sie die variable zwischen zwei anzeigen reduziert Arbeitsplätze

3 Antworten

Ich verkettet haben zwei Karte reduzieren Arbeitsplätze. Der Job1 wird nur ein reducer und ich bin computing einen float-Wert. Möchte ich diesen Wert in meinem Druckminderer von auftrag2 Kostentyp. Das ist meine main-Methode einrichten. public static String

hadoop hdfs mapreduce

Concat Avro-Dateien mit avro-tools

2 Antworten

Ich versuche zu verschmelzen avro-Dateien in eine große Datei, das problem ist concat - Befehl nicht akzeptieren die wildcard hadoop jar avro-tools.jar concat /input/part* /output/bigfile.avro Bekomme ich: Exception in thread "main" java.io.FileNotFoundException: Datei nicht nicht vorhanden: /input/Teil*

avro avro-tools hadoop hdfs

Zugriff auf Hadoop von PHP

1 Antworten

Muss ich den Zugriff von PHP auf das HDFS auf einem Hadoop-system cloudera Pakete in version 0.20.2+923.256. Es ist ein thrift-server für den namenode, die läuft und auch eine für den job-Verfolger. Ich habe die folgende Funktion

hadoop hdfs php thrift

Wie zu montieren HDFS auf Ubuntu 14.04

4 Antworten

So,ich kann nicht mounten HDFS auf Ubuntu 14.04. Mucommander nicht funktioniert, Sicherung nicht funktioniert, kann jemand mir erklären mit Bildern oder machen Sie mir einige Tutorials. Vielen Dank, beste Grüße. InformationsquelleAutor user3589613 | 2014-10-02

hadoop hdfs ubuntu-14.04

Wie Sie wissen, den genauen block Größe einer Datei, die auf einem Hadoop-Knoten?

4 Antworten

Ich habe eine 1 GB - Datei, die habe ich auf HDFS. Also, es wäre in Blöcke aufgeteilt und an verschiedene Knoten im cluster. Gibt es irgendein Befehl, um die genaue Größe des Blocks der Datei auf

hadoop hdfs

Gewusst wie: laden von Daten aus Cassandra zu HDFS?

3 Antworten

Ich habe einen Daten, die sich befindet in Apache Cassandra,ich möchte map/reduce-jobs mittels hadoop-Ökosystem-tools. Gewusst wie: laden von Daten aus Cassandra zu HDFS? Gibt es eine Speicher-handler andere als Cassandra storage-hf/Flotten ? InformationsquelleAutor kannadhasan | 2013-11-27

apache-pig cassandra hadoop hdfs hive

wie speichern von Daten in HDFS mit spark?

1 Antworten

Möchte ich mit Spark-Streaming-abrufen von Daten von Kafka. Nun, ich möchte meine Daten in eine remote-HDFS. Ich weiß, dass ich die Funktion saveAsText. Allerdings weiß ich nicht genau, wie man den Pfad angeben. Ist das richtig, wenn

apache-spark hadoop hdfs spark-streaming

Wie der Zugriff auf hdfs-URI bestehend aus H/A namenodes in Spark die äußeren hadoop-cluster?

4 Antworten

Nun habe ich einige Spark-Anwendungen, die für die Speicherung der Ausgabe auf HDFS. Da unsere hadoop-cluster ist aus der namenode H/A und spark-cluster außerhalb von hadoop-Clusters (ich weiß, es ist etwas schlecht) muss ich angeben HDFS-URI zur

apache-spark hadoop hdfs

so finden Sie die Datei von Blocknamen in HDFS hadoop

2 Antworten

Was ist der einfachste Weg zu finden, die zugeordnete Datei einen block im HDFS in einem gegebenen block Name/ID InformationsquelleAutor Inder Singh | 2012-06-04

hadoop hdfs

Kopieren von Verzeichnissen im HDFS mit der JAVA-API

2 Antworten

Wie kopiere ich ein Verzeichnis in HDFS in ein anderes Verzeichnis in HDFS? Fand ich die copyFromLocalFile Funktionen, die Kopie aus dem local-FS zu HDFS, aber ich will beide von der Quelle - /Ziel-werden in HDFS. Dank

hadoop hdfs

HDFS-Leistung für kleine Dateien

3 Antworten

Ich bin neu in Hadoop. Vor kurzem bin ich zu verarbeiten versucht (nur Lesen) viele kleine Dateien in hdfs/hadoop. Die Durchschnittliche Dateigröße beträgt etwa 1 kb und die Anzahl der Dateien ist mehr als 10M. Das Programm

hadoop hdfs io performance

Hive erzwingt schema bei lese-Zeit?

1 Antworten

Was ist der Unterschied und die Bedeutung dieser beiden Aussagen, die ich gestoßen, während einer Vorlesung hier: 1. Traditional databases enforce schema during load time. und 2. Hive enforces schema during read time. InformationsquelleAutor London guy |

hadoop hdfs hive mapreduce

Machen Schlüssel-Wert-Paare aus einem HDFS-Sequenz-Datei mit Apache Spark

1 Antworten

Was ist der beste Weg, um Schlüssel-Wert-Paare aus einem HDFS-Sequenz-Datei? Der Grund, warum ich Frage, ich habe zum Sortieren einer Sequenz-Datei. Die sortByKey Methode ist nicht verfügbar, es sei denn, Ihr RDD ist in der form von

apache-spark hdfs scala

Wie man den Namen der Datei für die Aufzeichnung in spark RDD (JavaRDD)

3 Antworten

Ich bin laden Sie mehrere Dateien in eine JavaRDD mit JavaRDD<String> allLines = sc.textFile(hdfs://path/*.csv); Nach dem laden der Dateien, die ich ändern jeder Datensatz und wollen, um Sie zu speichern. Allerdings muss ich auch speichern Sie die

apache-spark hadoop hdfs java

auxService:mapreduce_shuffle existiert nicht auf hive

2 Antworten

Bin ich mit hive 1.2.0 und hadoop 2.6.0. Wann immer ich bin mit Bienenkorb auf meinem Rechner... select-Abfrage funktioniert einwandfrei, aber bei count(*) es zeigt folgenden Fehler: Diagnosemeldungen für diese Aufgabe: Container-Einführung für gescheitert container_1434646588807_0001_01_000005 : org.apache.hadoop.Garn.Ausnahmen.InvalidAuxServiceException:

hadoop hdfs hive yarn

Hive Erstellen Multi-kleine Dateien, die für die einzelnen insert-HDFS

3 Antworten

folgenden ist bereits erreicht Kafka Producer-Daten von twitter mit Spark Streaming. Kafka Verbraucher Einlesen von Daten in Externen Hive-Tabelle(HDFS). während dies gut funktioniert, so weit. es gibt nur ein Problem ich bin vor, während meine app einfügen

apache-kafka hadoop hdfs hive spark-streaming

Hadoop auf dem Lokalen Dateisystem

1 Antworten

Ich bin mit Hadoop auf einem pseudo-verteilt. Ich will Lesen und schreiben von Lokalen Dateisystem durch die Abstraktion der HDFS für meinen job. Bin mit der file:/// parameter. Ich folgte diesem link. Dies ist der Inhalt der

filesystems hadoop hdfs

HIVE Externe Tisch - Set-Leer-Strings auf NULL

1 Antworten

Aktuell habe ich einen HIVE 0.7-Instanz auf Amazon EMR. Ich bin versuchen, um eine Kopie der Instanz auf eine neue EMR-cluster verwenden von Hive 0.11. In meinem 0.7 Beispiel ich habe eine externe Tabelle, die leere Zeichenfolgen

amazon-emr external-tables hadoop hdfs hive

hdfs dfs -put mit überschreiben?

4 Antworten

Ich bin mit hdfs dfs -put myfile mypath sind und für einige Dateien, die ich bekommen put: 'myfile': File Exists bedeutet das, dass es wird eine Datei mit dem gleichen Namen oder bedeutet das, dass das gleiche

hadoop hdfs

Hadoop dfs -ls gibt eine Liste der Dateien in mein hadoop/ dir

4 Antworten

Ich habe ein sigle-node-Hadoop-Konfiguration läuft über cygwin unter Win7. Nach dem Start von Hadoop durch bin/start-all.sh ich laufen bin/hadoop dfs -ls gibt mir eine Liste der Dateien, die in meinem hadoop-Verzeichnis. Dann Lauf ich bin/hadoop datanode -formatbin/hadoop

hadoop hdfs

Der Knoten /hbase ist nicht in Tierpfleger

5 Antworten

Ich bin ein Neuling in Hadoop zu installieren versuchen, Hbase in pseudo-distributed mode, version hbase-0.98.10.1-hadoop1-bin, mit Hadoop 2.5.2 . Ich bin nicht in der Lage, um eine Tabelle hinzuzufügen. Folgenden Fehler weiterhin, wenn ich versuche, eine Tabelle

hadoop hbase hdfs

Lesen Sie einen text-Datei aus dem HDFS line by line, in-mapper

1 Antworten

Ist der folgende code für Mapper, Lesen einer text-Datei aus dem HDFS-Recht? Und wenn es ist: Was passiert, wenn zwei Mapper, die in verschiedenen Knoten versuchen, die Datei zu öffnen, fast zur gleichen Zeit? Gibt es nicht

hadoop hdfs java

java.io.IOException: Nein Dateisystem für die Regelung : hdfs

3 Antworten

Ich bin mit Cloudera Quickstart VM CDH5.3.0 (in Bezug auf Pakete bündeln) und Funke 1.2.0 mit $SPARK_HOME=/opt/cloudera/parcels/CDH-5.3.0-1.cdh5.3.0.p0.30/lib/spark und Absenden Spark-Anwendung mit dem Befehl ./bin/spark-submit --class <Spark_App_Main_Class_Name> --master spark://localhost.localdomain:7077 --deploy-mode client --executor-memory 4G ../apps/<Spark_App_Target_Jar_Name>.jar Spark_App_Main_Class_Name.scala import org.apache.spark.SparkContext import

apache-spark apache-spark-mllib hadoop hdfs scala

Hadoop HDFS - Keine Verbindung zum port auf dem master

2 Antworten

Habe ich einen kleinen Hadoop cluster für den Test. Aufbau ging Recht gut mit dem NameNode (1 Maschine), SecondaryNameNode (1) und alle DataNodes (3). Die Maschine mit dem Namen "master", "secondary" und "data01", "data02" und "data03". Alle

hadoop hdfs networking port

Hadoop fs-lookup für die block-Größe?

3 Antworten

In Hadoop fs, wie lookup-Blockgröße für eine bestimmte Datei? War ich vor allem daran interessiert, eine Befehlszeile, so etwas wie: hadoop fs ... hdfs://fs1.data/... Aber es sieht aus wie nicht vorhanden. Gibt es eine Java-Lösung? Meinst du,

hadoop hdfs

Öffnen einer Datei in HDFS in VI zu Bearbeiten

5 Antworten

Möchte ich Bearbeiten einer text-Datei direkt in HDFS mit VI, ohne es zu kopieren, zu lokalen, zu Bearbeiten und dann kopieren Sie Sie wieder aus dem lokal. Ist das möglich? Edit: Das war früher möglich, Cloudera '

hadoop hdfs ubuntu vi

Kopieren einer Datei von HDFS auf Lokalem Computer

2 Antworten

Ich habe ein problem mit dem Versuch, den "download" - Datei aus dem HDFS-Dateisystem auf meinem lokalen system. (obwohl entgegengesetzte Vorgang funktioniert ohne ein problem). *Hinweis: die Datei existiert auf dem HDFS-Dateisystem auf dem angegebenen Pfad Hier

hadoop hdfs java

Hadoop HDFS kopieren mit wildcards?

4 Antworten

Ich kopieren möchten, die einem bestimmten Muster-Dateien in hdfs zu einer anderen Stelle im selben hdfs-Clusters. Die dfs-shell scheint nicht in der Lage sein, dies zu behandeln: hadoop dfs -cp /tables/weblog/server=jeckle/webapp.log.1* /tables/tinylog/server=jeckle/ Kein Fehler zurückgegeben: aber auch

copy hadoop hdfs

namenode, datanode nicht Liste mithilfe von jps

5 Antworten

Umgebung: ubuntu 14.04, hadoop 2.6 Nachdem ich die start-all.sh und jps, DataNode Liste nicht auf dem terminal >jps 9529 ResourceManager 9652 NodeManager 9060 NameNode 10108 Jps 9384 SecondaryNameNode nach dieser Antwort : Datanode-Prozess nicht ausgeführt wird, die

hadoop hdfs ubuntu

Im Bienenstock gibt es eine Möglichkeit, um anzugeben, zwischen denen Spalten hinzufügen, um eine neue Spalte?

3 Antworten

Kann ich tun ALTER TABLE table_name ADD COLUMNS (user_id BIGINT) hinzufügen einer neuen Spalte am Ende meiner nicht-partition Spalten und bevor meine partition Spalten. Gibt es eine Möglichkeit, eine neue Spalte hinzufügen, um überall unter meinen nicht-partition

hadoop hdfs hive

Wie zum kopieren von Daten von einem HDFS zu einem anderen HDFS?

6 Antworten

Habe ich zwei HDFS-setup und kopieren möchten (nicht migrieren oder zu verschieben) einige Tabellen aus HDFS1 zu HDFS2. Wie zum kopieren von Daten von einem HDFS zu einem anderen HDFS? Ist es möglich über Sqoop oder andere

bigdata hadoop hdfs sqoop

Hdfs setzen VS webhdfs

4 Antworten

Ich bin be-28 GB-Datei in hadoop hdfs mit webhdfs und es dauert ~25 Minuten, um zu laden. Ich habe versucht, laden der gleichen Datei mit hdfs setzen und Es dauerte ~6 Minuten. Warum gibt es so viel

hadoop hdfs webhdfs

Gewusst wie: navigieren in Verzeichnissen, die in Hadoop HDFS

3 Antworten

Möchte ich zum navigieren in HDFS Ersten schaute ich auf die Verzeichnisse "root" HDFS [cloudera@localhost ~]$ sudo -u hdfs hadoop fs -ls hdfs:/ Found 5 items drwxr-xr-x - hbase hbase 0 2015-10-10 07:03 hdfs:///hbase drwxr-xr-x - solr

hadoop hdfs

Verschieben von Daten in hdfs mit copyFromLocal wechseln

1 Antworten

Ich weiß nicht, was hier Los ist, aber ich bin versucht zu kopieren einer einfachen Datei von einem Verzeichnis in mein lokales Dateisystem auf dem angegebenen Verzeichnis für hdfs. In meinem hdfs-site.xml ich habe angegeben, dass das

hadoop hdfs