Tag: emr

Fragen zu Amazon Elastic MapReduce (EMR) Produkt.

Wo sind die Funken anmeldet EMR?

Anzahl der Antworten 4 Antworten
Ich bin nicht in der Lage zu lokalisieren, die Fehler-logs oder Nachricht von println Anrufe in Scala während der Ausführung von jobs auf Spark im EMR. Wo finde ich diese? Ich bin das Einreichen der Spark job,

org.apache.hadoop.mapred.YarnChild: Fehler ausführen Kind : java.lang.OutOfMemoryError: Java heap space

Anzahl der Antworten 1 Antworten
Habe ich eine 90 MB bissig komprimierte Datei, die ich bin versucht, das als Eingabe für Hadoop 2.2.0 auf AMI 3.0.4 in AWS EMR. Sofort beim Versuch, die Datei zu Lesen, mein Rekord Leser erhält die folgende

Probleme mit distcp und s3distcp mit meinem EMR-Auftrag, die Ausgänge zu HDFS

Anzahl der Antworten 2 Antworten
Habe ich einen job ausführen, die auf der AWS-EMR, gespeichert und der Ausgang in EMR-job ' s HDFS. Ich bin dann versucht zu kopieren das Ergebnis zu S3 über distcp oder s3distcp, aber beide sind nicht die,

Pyspark - Datei Laden: Pfad nicht vorhanden ist

Anzahl der Antworten 1 Antworten
Ich bin ein Neuling auf Spark. Ich versuche zu Lesen, eine lokale csv-Datei in einem EMR cluster. Die Datei befindet sich in: /home/hadoop/. Das Skript, dass ich verwende ist dieses: spark = SparkSession \ .builder \ .appName("Protob

Hive Table add partition laden alle Unterverzeichnisse

Anzahl der Antworten 2 Antworten
Bin ich mit hive (mit externen Tabellen) zum verarbeiten von Daten in amazon S3 gespeicherten. Meine Daten sind wie folgt partitioniert: group/team/dt/ (z.B. eine Daten-Datei kann gespeichert werden, in einen Pfad group=myGroup/team=myTeam/dt=20120603) Ich würde gerne die Verarbeitung

Neustart hive-service auf AWS-EMR

Anzahl der Antworten 5 Antworten
Ich bin sehr neu auf HIVE als auch AWS-EMR. Wie pro meine Anforderung, ich brauche zum erstellen von Hive-Metastore Außerhalb des Clusters (aus AWS EMR AWS RDS). Ich folgte den Anweisungen in http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-dev-create-metastore-outside.html Ich änderungen in hive-site.xml

Apache Hive: Wie konvertieren von string in timestamp?

Anzahl der Antworten 2 Antworten
Ich versuche, konvertieren Sie die Zeichenfolge in REC_TIME Spalte einen timestamp-format in der Struktur. Ex: Sun Jul 31 09:28:20 UTC 2016 => 2016-07-31 09:28:20 SELECT xxx, UNIX_TIMESTAMP(REC_TIME, "E M dd HH:mm:ss z yyyy") FROM wlogs LIMIT 10;

Steigerung der spark.Garn.executor.memoryOverhead

Anzahl der Antworten 2 Antworten
Ich versuche zu laufen (py)Funken job auf EMR, der Prozess wird eine große Menge von Daten. Derzeit mein job fehlschlägt, mit der folgenden Fehlermeldung: Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of 5.5

Pyspark --py-Dateien funktioniert nicht

Anzahl der Antworten 7 Antworten
Ich dieses Dokument schlägt vor, http://spark.apache.org/docs/1.1.1/submitting-applications.html spsark version 1.1.0 ./spark/bin/spark-submit --py-files /home/hadoop/loganalysis/parser-src.zip \ /home/hadoop/loganalysis/ship-test.py conf und in code : conf = (SparkConf() .setMaster("yarn-client") .setAppName("LogAnalysis") .set("spark.executor.memory", "1g") .set("spark.executor.cores", "4") .set("spark.executor.num", "2") .set("spark.driver.memory", "4g") .set("spark.kryoserializer.buffer.mb", "128")) - und slave-Knoten

Funke + EMR mit Amazon "maximizeResourceAllocation" - Einstellung nicht alle Kerne/vcores

Anzahl der Antworten 3 Antworten
Ich bin mit einer EMR-cluster (version emr-4.2.0) für Spark-Amazon-spezifische maximizeResourceAllocation fahne dokumentiert hier. Laut den docs, "diese option berechnet die maximale Rechen-und Speicher-Ressourcen zur Verfügung für ein Testamentsvollstrecker auf einen Knoten in der core-Knoten-Gruppe und legt die

Spark - Die instance-Typ wird bevorzugt für AWS-EMR-cluster?

Anzahl der Antworten 2 Antworten
Ich bin mit einige machine learning algorithmen auf EMR-Spark-cluster. Ich bin neugierig, welche Art von Instanz zu verwenden, so kann ich den optimalen Kosten - /performance-Gewinn? Für die gleiche Höhe der Preise, ich kann wählen zwischen: vCPU

SQL-Abfrage in Spark/scala Größe überschreitet Integer.MAX_VALUE

Anzahl der Antworten 1 Antworten
Ich bin versucht, zu erstellen eine einfache sql-Abfrage auf S3 Ereignisse mit Spark. Ich bin be ~30GB von JSON-Dateien wie folgt: val d2 = spark.read.json("s3n://myData/2017/02/01/1234"); d2.persist(org.apache.spark.storage.StorageLevel.MEMORY_AND_DISK); d2.registerTempTable("d2"); Dann bin ich versucht zu schreiben, um die Datei, die

“Container getötet GARN für eine überschreitung der Speichergrenzen. 10.4 GB 10,4 GB physikalischen Speicher" auf einem EMR cluster mit 75GB Speicher

Anzahl der Antworten 5 Antworten
Ich bin mit 5 Knoten Spark-cluster über die AWS-EMR jeder Größe m3.xlarge (1 master 4 slaves). Ich lief erfolgreich durch eine 146Mb bzip2-komprimierte CSV-Datei und endete mit einem perfekt aggregierte Ergebnis. Nun bin ich zu verarbeiten versucht

Wie neu zu starten, Garn auf AWS-EMR

Anzahl der Antworten 3 Antworten
Ich bin mit Hadoop 2.6.0 (emr-4.2.0 Bild). Ich habe einige änderungen vorgenommen, die in yarn-site.xml und neu starten möchten Garn zu bringen die änderungen wirksam werden. Gibt es einen Befehl mit dem ich dies tun kann? InformationsquelleAutor

Komprimieren Sie die Datei auf S3

Anzahl der Antworten 2 Antworten
Ich habe einen 17.7 GB-Datei auf S3. Es wurde erzeugt als die Ausgabe des Hive-Abfrage und es wird nicht komprimiert. Weiß ich, dass durch die Komprimierung, es werden etwa 2,2 GB (gzip). Wie kann ich diese Datei

Spark Ressourcen nicht vollständig zugeteilt, die auf Amazon EMR

Anzahl der Antworten 4 Antworten
Ich versuche zu maximieren cluster-Nutzung für eine einfache Aufgabe. Cluster 1+2 x m3.xlarge, lauffähige Spark Version 1.3.1, Hadoop 2.4, Amazon AMI 3.7 Die Aufgabe liest alle Zeilen einer text-Datei und analysieren Sie Sie als csv-Datei. Wenn ich

Exportieren Hive-Tabelle in einen S3-bucket

Anzahl der Antworten 3 Antworten
Ich habe eine Hive-Tabelle, die durch eine Elastische MapReduce interaktive Sitzung und aufgefüllt, die es aus einer CSV-Datei wie folgt: CREATE TABLE csvimport(id BIGINT, time STRING, log STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; LOAD DATA

Wie erstellt man aus den JSON-Daten eine HIVE-Tabelle?

Anzahl der Antworten 5 Antworten
Möchte ich zum erstellen einer Hive-Tabelle, aus der einige der JSON-Daten (geschachtelte) und ausführen von Abfragen auf? Ist das überhaupt möglich? Habe ich bekommen, wie weit das hochladen der JSON-Datei zu S3 und Einführung einer EMR-Instanz, aber

Wie kopiere ich Dateien von S3 nach Amazon EMR HDFS?

Anzahl der Antworten 3 Antworten
Ich bin mit hive über EMR, und kopieren Sie einige Dateien, um alle EMR-Instanzen. Einer Art und Weise, wie ich Sie verstehe, ist nur zum kopieren von Dateien auf das lokale Dateisystem, die auf jedem Knoten der