Kopieren von Dateien von S3, HDFS mit distcp oder s3distcp
Ich versuche das kopieren von Dateien von S3, HDFS mit dem folgenden Befehl:
hadoop distcp s3n://bucketname/filename hdfs://namenodeip/directory
Dies ist jedoch nicht arbeiten, bekommen eine Fehlermeldung wie folgt:
ERROR tools.DistCp: Exception encountered
java.lang.IllegalArgumentException: Invalid hostname in URI
Habe ich versucht, um die S3-Schlüssel in hadoop conf.xml und es ist auch nicht zu arbeiten. Helfen Sie mir bitte die entsprechende Schritt für Schritt-Verfahren zu erreichen, das kopieren der Datei von S3, HDFS.
Vielen Dank im Voraus.
InformationsquelleAutor scalauser | 2014-03-27
Du musst angemeldet sein, um einen Kommentar abzugeben.
Der Befehl sollte wie folgt sein :
Wird dieser test zu kopieren.csv-Datei von S3 zu einem HDFS-Verzeichnis namens /mydirectory in der angegebenen HDFS-Pfad.
In dieser S3-Dateisystem verwendet wird, der in einer systemeigenen Modus. Mehr details finden Sie auf http://wiki.apache.org/hadoop/AmazonS3
InformationsquelleAutor scalauser
Kopie gespeicherten Protokolldateien in einem Amazon S3-bucket, in HDFS. Hier --srcPattern option wird verwendet, um die Daten beschränken, die kopiert daemon protokolliert.
Linux, UNIX und Mac OS X-Benutzer:
Windows-Benutzer:
Bitte überprüfen Sie diesen link für mehr Informationen :
http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/UsingEMR_s3distcp.html
Hoffe, das hilft!
InformationsquelleAutor Sathish