Tag: emr

Fragen zu Amazon Elastic MapReduce (EMR) Produkt.

Wo sind die Funken anmeldet EMR?

4 Antworten

Ich bin nicht in der Lage zu lokalisieren, die Fehler-logs oder Nachricht von println Anrufe in Scala während der Ausführung von jobs auf Spark im EMR. Wo finde ich diese? Ich bin das Einreichen der Spark job,

org.apache.hadoop.mapred.YarnChild: Fehler ausführen Kind : java.lang.OutOfMemoryError: Java heap space

1 Antworten

Habe ich eine 90 MB bissig komprimierte Datei, die ich bin versucht, das als Eingabe für Hadoop 2.2.0 auf AMI 3.0.4 in AWS EMR. Sofort beim Versuch, die Datei zu Lesen, mein Rekord Leser erhält die folgende

emr hadoop snappy

Probleme mit distcp und s3distcp mit meinem EMR-Auftrag, die Ausgänge zu HDFS

2 Antworten

Habe ich einen job ausführen, die auf der AWS-EMR, gespeichert und der Ausgang in EMR-job ' s HDFS. Ich bin dann versucht zu kopieren das Ergebnis zu S3 über distcp oder s3distcp, aber beide sind nicht die,

amazon-emr amazon-web-services elastic-map-reduce emr

Pyspark - Datei Laden: Pfad nicht vorhanden ist

1 Antworten

Ich bin ein Neuling auf Spark. Ich versuche zu Lesen, eine lokale csv-Datei in einem EMR cluster. Die Datei befindet sich in: /home/hadoop/. Das Skript, dass ich verwende ist dieses: spark = SparkSession \ .builder \ .appName("Protob

amazon-emr apache-spark emr pyspark pyspark-sql

Hive Table add partition laden alle Unterverzeichnisse

2 Antworten

Bin ich mit hive (mit externen Tabellen) zum verarbeiten von Daten in amazon S3 gespeicherten. Meine Daten sind wie folgt partitioniert: group/team/dt/ (z.B. eine Daten-Datei kann gespeichert werden, in einen Pfad group=myGroup/team=myTeam/dt=20120603) Ich würde gerne die Verarbeitung

amazon-emr emr hadoop hive

Neustart hive-service auf AWS-EMR

5 Antworten

Ich bin sehr neu auf HIVE als auch AWS-EMR. Wie pro meine Anforderung, ich brauche zum erstellen von Hive-Metastore Außerhalb des Clusters (aus AWS EMR AWS RDS). Ich folgte den Anweisungen in http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-dev-create-metastore-outside.html Ich änderungen in hive-site.xml

amazon-s3 amazon-web-services emr hadoop hive

Apache Hive: Wie konvertieren von string in timestamp?

2 Antworten

Ich versuche, konvertieren Sie die Zeichenfolge in REC_TIME Spalte einen timestamp-format in der Struktur. Ex: Sun Jul 31 09:28:20 UTC 2016 => 2016-07-31 09:28:20 SELECT xxx, UNIX_TIMESTAMP(REC_TIME, "E M dd HH:mm:ss z yyyy") FROM wlogs LIMIT 10;

emr hadoop hive hiveql

Steigerung der spark.Garn.executor.memoryOverhead

2 Antworten

Ich versuche zu laufen (py)Funken job auf EMR, der Prozess wird eine große Menge von Daten. Derzeit mein job fehlschlägt, mit der folgenden Fehlermeldung: Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of 5.5

amazon-emr amazon-web-services apache-spark emr pyspark

Pyspark --py-Dateien funktioniert nicht

7 Antworten

Ich dieses Dokument schlägt vor, http://spark.apache.org/docs/1.1.1/submitting-applications.html spsark version 1.1.0 ./spark/bin/spark-submit --py-files /home/hadoop/loganalysis/parser-src.zip \ /home/hadoop/loganalysis/ship-test.py conf und in code : conf = (SparkConf() .setMaster("yarn-client") .setAppName("LogAnalysis") .set("spark.executor.memory", "1g") .set("spark.executor.cores", "4") .set("spark.executor.num", "2") .set("spark.driver.memory", "4g") .set("spark.kryoserializer.buffer.mb", "128")) - und slave-Knoten

apache-spark emr hadoop python

Funke + EMR mit Amazon "maximizeResourceAllocation" - Einstellung nicht alle Kerne/vcores

3 Antworten

Ich bin mit einer EMR-cluster (version emr-4.2.0) für Spark-Amazon-spezifische maximizeResourceAllocation fahne dokumentiert hier. Laut den docs, "diese option berechnet die maximale Rechen-und Speicher-Ressourcen zur Verfügung für ein Testamentsvollstrecker auf einen Knoten in der core-Knoten-Gruppe und legt die

amazon-emr apache-spark elastic-map-reduce emr yarn

Spark - Die instance-Typ wird bevorzugt für AWS-EMR-cluster?

2 Antworten

Ich bin mit einige machine learning algorithmen auf EMR-Spark-cluster. Ich bin neugierig, welche Art von Instanz zu verwenden, so kann ich den optimalen Kosten - /performance-Gewinn? Für die gleiche Höhe der Preise, ich kann wählen zwischen: vCPU

amazon-ec2 apache-spark emr

SQL-Abfrage in Spark/scala Größe überschreitet Integer.MAX_VALUE

1 Antworten

Ich bin versucht, zu erstellen eine einfache sql-Abfrage auf S3 Ereignisse mit Spark. Ich bin be ~30GB von JSON-Dateien wie folgt: val d2 = spark.read.json("s3n://myData/2017/02/01/1234"); d2.persist(org.apache.spark.storage.StorageLevel.MEMORY_AND_DISK); d2.registerTempTable("d2"); Dann bin ich versucht zu schreiben, um die Datei, die

amazon-ec2 apache-spark emr sql

“Container getötet GARN für eine überschreitung der Speichergrenzen. 10.4 GB 10,4 GB physikalischen Speicher" auf einem EMR cluster mit 75GB Speicher

5 Antworten

Ich bin mit 5 Knoten Spark-cluster über die AWS-EMR jeder Größe m3.xlarge (1 master 4 slaves). Ich lief erfolgreich durch eine 146Mb bzip2-komprimierte CSV-Datei und endete mit einem perfekt aggregierte Ergebnis. Nun bin ich zu verarbeiten versucht

amazon-emr apache-spark bigdata emr

Wie neu zu starten, Garn auf AWS-EMR

3 Antworten

Ich bin mit Hadoop 2.6.0 (emr-4.2.0 Bild). Ich habe einige änderungen vorgenommen, die in yarn-site.xml und neu starten möchten Garn zu bringen die änderungen wirksam werden. Gibt es einen Befehl mit dem ich dies tun kann? InformationsquelleAutor

emr hadoop yarn

Komprimieren Sie die Datei auf S3

2 Antworten

Ich habe einen 17.7 GB-Datei auf S3. Es wurde erzeugt als die Ausgabe des Hive-Abfrage und es wird nicht komprimiert. Weiß ich, dass durch die Komprimierung, es werden etwa 2,2 GB (gzip). Wie kann ich diese Datei

amazon-s3 compression emr file-transfer hive

Spark Ressourcen nicht vollständig zugeteilt, die auf Amazon EMR

4 Antworten

Ich versuche zu maximieren cluster-Nutzung für eine einfache Aufgabe. Cluster 1+2 x m3.xlarge, lauffähige Spark Version 1.3.1, Hadoop 2.4, Amazon AMI 3.7 Die Aufgabe liest alle Zeilen einer text-Datei und analysieren Sie Sie als csv-Datei. Wenn ich

apache-spark emr yarn

Exportieren Hive-Tabelle in einen S3-bucket

3 Antworten

Ich habe eine Hive-Tabelle, die durch eine Elastische MapReduce interaktive Sitzung und aufgefüllt, die es aus einer CSV-Datei wie folgt: CREATE TABLE csvimport(id BIGINT, time STRING, log STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; LOAD DATA

amazon-s3 elastic-map-reduce emr hive

Wie erstellt man aus den JSON-Daten eine HIVE-Tabelle?

5 Antworten

Möchte ich zum erstellen einer Hive-Tabelle, aus der einige der JSON-Daten (geschachtelte) und ausführen von Abfragen auf? Ist das überhaupt möglich? Habe ich bekommen, wie weit das hochladen der JSON-Datei zu S3 und Einführung einer EMR-Instanz, aber

amazon-emr emr hadoop hive json

Wie kopiere ich Dateien von S3 nach Amazon EMR HDFS?

3 Antworten

Ich bin mit hive über EMR, und kopieren Sie einige Dateien, um alle EMR-Instanzen. Einer Art und Weise, wie ich Sie verstehe, ist nur zum kopieren von Dateien auf das lokale Dateisystem, die auf jedem Knoten der

amazon-s3 emr hadoop hdfs hive