Wie kann ich auf s3a: // Dateien von Apache Spark zugreifen?

Hadoop 2.6 nicht unterstützt s3a out of the box, also habe ich versucht eine Reihe von Lösungen und Fehlerbehebungen, einschließlich:

bereitstellen mit hadoop, aws und aws-java-sdk => kann nicht gelesen werden-Umgebungsvariable für Anmeldeinformationen
hadoop-aws-in maven => verschiedene transitive Abhängigkeit Konflikte

Hat jemand erfolgreich machen beide arbeiten?

InformationsquelleAutor der Frage tribbloid | 2015-05-21

28

Erlebt aus Erster hand den Unterschied zwischen s3a und s3n - 7.9 GB Daten übertragen auf s3a war um ~7 Minuten, während die 7.9 GB Daten auf s3n dauerte 73 Minuten ["us-east-1, us-west-1 leider in beiden Fällen; Rotverschiebung und Lambda als us-east-1 in dieser Zeit] dies ist ein sehr wichtiger Teil von dem Stapel, um die richtige und es lohnt sich, die frustration.

Hier sind die wichtigsten Teile, wie vom Dezember 2015:
1. Ihre Spark-cluster benötigt eine Hadoop version 2.x oder höher. Wenn Sie die Spark-EC2-setup-Skripts und vielleicht hat es verpasst, den Schalter für die Verwendung von etwas anderes als 1.0 ist die Angabe --hadoop-major-version 2 (die CDH 4.2 als dies geschrieben wurde).
2. Muss was auf den ersten zu sein scheinen, eine out-of-date AWS-SDK-Bibliothek (gebaut 2014 als version 1.7.4) für Versionen von Hadoop so spät wie 2.7.1 (stabil): aws-java-sdk-1.7.4. Soweit ich sagen kann, mit dieser zusammen mit den bestimmten AWS-SDK Gläser für 1.10.8 hat nicht nichts gebrochen.
3. Müssen Sie auch die hadoop-aws-2.7.1 JAR im classpath. Diese JAR-Datei enthält die Klasse org.apache.hadoop.fs.s3a.S3AFileSystem.
4. In spark.properties wahrscheinlich möchten Sie einige Einstellungen, die wie folgt Aussehen:
```
spark.hadoop.fs.s3a.impl=org.apache.hadoop.fs.s3a.S3AFileSystem  
spark.hadoop.fs.s3a.access.key=ACCESSKEY  
spark.hadoop.fs.s3a.secret.key=SECRETKEY
```
Habe ich detailliert diese Liste im detail auf eine post ich schrieb so arbeitete ich mich durch diesen Prozess. Zusätzlich habe ich alle bedeckt Ausnahme Fällen traf ich auf dem Weg und was ich glaube, um die Ursache der einzelnen und wie Sie zu beheben.

InformationsquelleAutor der Antwort cfeduke
12

Ich es geschafft habe mit der Funke 1.4.1 prebuilt binary mit hadoop 2.6
Stellen Sie sicher, dass Sie beide spark.driver.extraClassPath und spark.executor.extraClassPath deutete auf die beiden Gläser (hadoop, aws und aws-java-sdk)
Wenn Sie die Ausführung auf einem cluster, stellen Sie sicher, dass Ihre Vollstrecker haben Zugriff auf die jar-Dateien auf dem cluster.

InformationsquelleAutor der Antwort ChromeHearts
9

Ich Schreibe diese Antwort auf Dateien zugreifen, die mit S3A von Funke 2.0.1 auf Hadoop 2.7.3

Kopieren Sie die AWS-Gläser(hadoop-aws-2.7.3.jar und aws-java-sdk-1.7.4.jar) ausgeliefert mit Hadoop standardmäßig
- Hinweis: Wenn die jar-Standorte sind unsicher? ausführen-Befehl "suchen" als privilegierte hilfreich sein können, können Sie auch die Befehle..
```
 find /-name hadoop-aws*.jar
 find /-name aws-java-sdk*.jar
```
in Funke classpath hält, die alle spark-Gläser
- Hinweis: Wir können nicht direkt die Lage(Es muss in der property-Datei) wie ich will, machen Antwort generische für Distributionen und Linux-Geschmacksrichtungen. Funke classpath erkannt werden können, finden Sie folgenden Befehl ein,
```
 find /-name spark-core*.jar
```
in spark-defaults.conf

Hinweis: (Meist wird in /etc/spark/conf/spark-defaults.conf)
```
#make sure jars are added to CLASSPATH
spark.yarn.jars=file://{spark/home/dir}/jars/*.jar,file://{hadoop/install/dir}/share/hadoop/tools/lib/*.jar


spark.hadoop.fs.s3a.impl=org.apache.hadoop.fs.s3a.S3AFileSystem  
spark.hadoop.fs.s3a.access.key={s3a.access.key} 
spark.hadoop.fs.s3a.secret.key={s3a.secret.key} 
#you can set above 3 properties in hadoop level `core-site.xml` as well by removing spark prefix.
```
spark übermittelt Gläser(aws-java-sdk und hadoop-aws) in --driver-class-path wenn nötig.
```
spark-submit --master yarn \
  --driver-class-path {spark/jars/home/dir}/aws-java-sdk-1.7.4.jar \
  --driver-class-path {spark/jars/home/dir}/hadoop-aws-2.7.3.jar \
  other options
```
Hinweis:

Stellen Sie sicher, dass die Linux-Benutzer mit lese-Berechtigungen, bevor Sie von der
find Befehl, um Fehler zu vermeiden Permission denied

InformationsquelleAutor der Antwort mrsrinivas
8

Wir mit Hilfe der spark-1.6.1 mit Sofort-und wir waren immer viele Fragen schriftlich S3 von spark. Ich Kredit zu geben, cfeduke für die Antwort. Die leichte änderung, die ich gemacht hatte, war das hinzufügen von maven Koordinaten zu der spark.jar Konfiguration in der Funke-defaults.conf-Datei. Ich habe versucht, mit hadoop-aws:2.7.2 war aber noch immer viele Fehler, so dass wir wieder auf 2.7.1. Unten sind die Veränderungen in der Funke-defaults.conf, die für uns arbeiten:
```
spark.jars.packages             net.java.dev.jets3t:jets3t:0.9.0,com.google.guava:guava:16.0.1,com.amazonaws:aws-java-sdk:1.7.4,org.apache.hadoop:hadoop-aws:2.7.1
spark.hadoop.fs.s3a.impl        org.apache.hadoop.fs.s3a.S3AFileSystem
spark.hadoop.fs.s3a.access.key  <MY ACCESS KEY>
spark.hadoop.fs.s3a.secret.key  <MY SECRET KEY>
spark.hadoop.fs.s3a.fast.upload true
```
Danke cfeduke für die Zeit nehmen, zu schreiben, Ihre post. Es war sehr hilfreich.

InformationsquelleAutor der Antwort Kyle Burke
7

Hier sind die details wie der Oktober 2016, wie er auf Spark-Gipfel der EU: Apache Spark und Objekt Speichert.

Wichtige Punkte
- Die direkte Ausgabe committer ist Weg von Spark 2.0 aufgrund von Risiko/Erfahrung, Beschädigung von Daten.
- Es gibt einige Einstellungen auf der FileOutputCommitter zu reduzieren benennt, aber nicht beseitigen
- Ich arbeite mit einigen Kollegen zu tun, eine O(1) - committer, die sich auf die Apache-Dynamo zu uns, die Kontinuität, die wir brauchen.
- Zu verwenden, S3a, erhalten Sie Ihre classpath-Recht.
- Und werden auf Hadoop 2.7.z; 2.6.x hatte einige Probleme, die angesprochen wurden, indem Sie dann HADOOP-11571.
- Es ist ein PR unter SPARK-7481 zu ziehen und alles in eine spark-Distribution, die Sie selbst bauen. Ansonsten Fragen wer versorgt, um die Binärdateien, um die Arbeit zu tun.
- Hadoop 2.8 ist hinzufügen großen perf Verbesserungen HADOOP-11694.
Product placement: die lese-performance Seite von HADOOP-11694 ist enthalten in HDP2.5; Die Funken-und S3-Dokumentation es könnte von Interesse sein —vor allem die tuning-Optionen.

InformationsquelleAutor der Antwort Steve Loughran
4

Verwendung von Spark-1.4.1 pre-gebaut mit Hadoop 2.6, ich bin in der Lage zu bekommen s3a://zu arbeiten, wenn die Bereitstellung auf einem Spark-Standalone-cluster durch hinzufügen der hadoop-aws und aws-java-sdk-jar-Dateien aus dem Hadoop-2.7.1-Distribution (zu finden unter $HADOOP_HOME/share/hadoop/tools/lib der Hadoop-2.7.1) zu meinem SPARK_CLASSPATH Umgebungsvariable in meinem $SPARK_HOME/conf/spark-env.sh Datei.

InformationsquelleAutor der Antwort richvt2k
4

als Sie sagte, hadoop 2.6 nicht unterstützt s3a und die neueste spark Version 1.6.1 nicht unterstützt hadoop-2.7, aber spark 2.0 ist definitiv kein problem mit hadoop 2.7 und s3a.

für spark 1.6.x, haben wir etwas schmutziger hack, mit dem s3-Treiber von EMR... können Sie einen Blick in diesem doc: https://github.com/zalando/spark-appliance#emrfs-support

wenn Sie immer noch wollen, um zu versuchen, zu verwenden, s3a in spark 1.6.x finden Sie die Antwort hier: https://stackoverflow.com/a/37487407/5630352

InformationsquelleAutor der Antwort chutium

Können Sie auch hinzufügen, die S3A Abhängigkeiten zu den classpath mit spark-defaults.conf.

Beispiel:

spark.driver.extraClassPath     /usr/local/spark/jars/hadoop-aws-2.7.5.jar
spark.executor.extraClassPath   /usr/local/spark/jars/hadoop-aws-2.7.5.jar
spark.driver.extraClassPath     /usr/local/spark/jars/aws-java-sdk-1.7.4.jar
spark.executor.extraClassPath   /usr/local/spark/jars/aws-java-sdk-1.7.4.jar

Oder einfach nur:

spark.jars     /usr/local/spark/jars/hadoop-aws-2.7.5.jar,/usr/local/spark/jars/aws-java-sdk-1.7.4.jar

Nur sicherstellen, dass entsprechend Ihrer AWS-SDK-version auf die version von Hadoop. Für mehr Informationen Blick auf diese Antwort: Nicht auf S3-Daten mit Spark 2.2

InformationsquelleAutor der Antwort LXXIII

Hier ist eine Lösung für pyspark (evtl. mit proxy):

def _configure_s3_protocol(spark, proxy=props["proxy"]["host"], port=props["proxy"]["port"], endpoint=props["s3endpoint"]["irland"]):
    """
    Configure access to the protocol s3
    https://sparkour.urizone.net/recipes/using-s3/
    AWS Regions and Endpoints
    https://docs.aws.amazon.com/general/latest/gr/rande.html
    """
    sc = spark.sparkContext
    sc._jsc.hadoopConfiguration().set("fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")
    sc._jsc.hadoopConfiguration().set("fs.s3a.access.key",  os.environ.get("AWS_ACCESS_KEY_ID"))
    sc._jsc.hadoopConfiguration().set("fs.s3a.secret.key", os.environ.get("AWS_SECRET_ACCESS_KEY"))
    sc._jsc.hadoopConfiguration().set("fs.s3a.proxy.host", proxy)
    sc._jsc.hadoopConfiguration().set("fs.s3a.proxy.port", port)
    sc._jsc.hadoopConfiguration().set("fs.s3a.endpoint", endpoint)
    return spark

InformationsquelleAutor der Antwort raul ferreira

1

Können Sie s3n://und ändern spark output committer um eine, die direkt die Ausgänge der Datei (siehe dieses snippet)

InformationsquelleAutor der Antwort Arnon Rotem-Gal-Oz
0

Ich benutze Funken version 2.3, und wenn ich speichern eines datasets mit Funken wie:
```
dataset.write().format("hive").option("fileFormat", "orc").mode(SaveMode.Overwrite)
    .option("path", "s3://reporting/default/temp/job_application")
    .saveAsTable("job_application");
```
Es funktioniert perfekt und erspart mir die Daten in s3.

InformationsquelleAutor der Antwort Abdulhafeth Sartawi

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

in spark-defaults.conf

in `spark-defaults.conf`