Tag: amazon-emr

Amazon Elastic MapReduce (Amazon EMR) ist ein web-service, mit dem Unternehmen, Forscher, Datenanalysten und Entwickler einfach und kostengünstig riesige Datenmengen verarbeiten können. Es nutzt eine gehostete Hadoop-framework läuft auf dem web-scale-Infrastruktur von Amazon Elastic Compute Cloud (Amazon EC2) und Amazon Simple Storage Service (Amazon S3).

wie speedup amazon EMR-bootstrap?

3 Antworten

Ich bin mit amazon EMR für einige intensive Berechnung, aber, es dauert etwa 7 min zum starten-computing, gibt es einige clevere Möglichkeit zu haben, meine Berechnung ab sofort ? Die Berechnung ist ein python-stream gestartet von einem

amazon-emr

die Verwendung von amazon s3 als Eingabe -, Ausgabe und Zwischenergebnisse gespeichert in EMR-Karte reduzieren job

2 Antworten

Ich versuche, mit Amazon s3-Speicher mit EMR. Allerdings, wenn ich derzeit mein code bekomme ich mehrere Fehler, wie java.lang.IllegalArgumentException: This file system object (hdfs://10.254.37.109:9000) does not support access to the request path 's3n://energydata/input/centers_200_10k_norm.csv' You possibly called FileSystem.get(conf)

Wie funktioniert S3 weisen einen Zeitstempel beim upload?

2 Antworten

Wir haben ein Verfahren, das hochladen von Dateien zu S3. In der Tat, es ist eine indirekte. Wir nutzen Amazon Elastic MapReduce (EMR) und Hadoop verpflichtet, die Dateien zu S3, aus vielen verschiedenen task-Knoten. Dann, nach, dass

amazon-emr amazon-s3

Hat einer EMR-master-Knoten wissen, seine cluster-ID?

5 Antworten

Ich möchte in der Lage sein zu erstellen EMR-Cluster, und für diejenigen Cluster, die zum senden von Nachrichten an eine zentrale Warteschlange. Um für diese zu arbeiten, ich brauche, um irgendeine Art von agent läuft auf jedem

amazon-emr amazon-web-services hadoop

HIVE Externe Tisch - Set-Leer-Strings auf NULL

1 Antworten

Aktuell habe ich einen HIVE 0.7-Instanz auf Amazon EMR. Ich bin versuchen, um eine Kopie der Instanz auf eine neue EMR-cluster verwenden von Hive 0.11. In meinem 0.7 Beispiel ich habe eine externe Tabelle, die leere Zeichenfolgen

amazon-emr external-tables hadoop hdfs hive

Hinzufügen Spaltentitel, um die hive-Ergebnis eingestellt

4 Antworten

Ich bin mit einem hive-Skript in Amazon EMR zu analysieren, einige Daten. Und ich bin mit der übertragung der Ausgabe auf Amazon s3-bucket. Nun die Ergebnisse der hive-Skripts nicht enthalten Spaltenüberschriften. Habe ich auch versucht, mit Hilfe

amazon-emr amazon-s3 hive

So starten und konfigurieren einer EMR-cluster mit boto

4 Antworten

Ich versuche zu starten, einen cluster und einen job ausführen alle mit boto. Ich finde viele Beispiele für das erstellen job_flows. Aber ich kann nicht für das Leben von mir, finden Sie ein Beispiel, das zeigt: Wie

amazon-emr amazon-web-services boto python

Wie Sie ein Glas in zeppelin?

4 Antworten

Wie Sie ein Glas in Zeppelin für %hive-interpreter? Habe ich versucht %z.dep(''); add jar <jar path> Auch zeppelin-hive-interpreter wirft ClassNotFoundException Hinzufügen ./interpreter/hive/ Durchführungen Sparsamkeit Ausnahme, während add jar sagt Datei nicht gefunden. Wie es zu tun? Ich

amazon-emr apache-zeppelin hive jar json

Pfad einer Datei in hdfs

1 Antworten

Ich soll die Datei zu Lesen, aus dem Hadoop-Dateisystem. Zu erreichen, um den korrekten Pfad der Datei, muss ich den host-Namen und port-Adresse des hdfs. also endlich meinen Pfad der Datei sieht etwa wie Path path =

amazon-ec2 amazon-emr hadoop java mapreduce

Probleme mit distcp und s3distcp mit meinem EMR-Auftrag, die Ausgänge zu HDFS

2 Antworten

Habe ich einen job ausführen, die auf der AWS-EMR, gespeichert und der Ausgang in EMR-job ' s HDFS. Ich bin dann versucht zu kopieren das Ergebnis zu S3 über distcp oder s3distcp, aber beide sind nicht die,

amazon-emr amazon-web-services elastic-map-reduce emr

Pyspark - Datei Laden: Pfad nicht vorhanden ist

1 Antworten

Ich bin ein Neuling auf Spark. Ich versuche zu Lesen, eine lokale csv-Datei in einem EMR cluster. Die Datei befindet sich in: /home/hadoop/. Das Skript, dass ich verwende ist dieses: spark = SparkSession \ .builder \ .appName("Protob

amazon-emr apache-spark emr pyspark pyspark-sql

Hive Table add partition laden alle Unterverzeichnisse

2 Antworten

Bin ich mit hive (mit externen Tabellen) zum verarbeiten von Daten in amazon S3 gespeicherten. Meine Daten sind wie folgt partitioniert: group/team/dt/ (z.B. eine Daten-Datei kann gespeichert werden, in einen Pfad group=myGroup/team=myTeam/dt=20120603) Ich würde gerne die Verarbeitung

amazon-emr emr hadoop hive

FEHLGESCHLAGEN: ParseException: kann nicht erkennen, Eingang in der Nähe von 'exchange' 'string' ',' in der Spalte Spezifikation

2 Antworten

Ich bin mit die Letzte AWS-Hive-version 0.13.0. FAILED: ParseException: cannot recognize input near 'exchange' 'string' ',' in column specification Bin ich immer die obige Fehlermeldung, wenn ich unten(create table) Abfrage. CREATE EXTERNAL TABLE test ( foo string,

amazon-emr amazon-web-services hadoop hadoop-partitioning hive

Steigerung der spark.Garn.executor.memoryOverhead

2 Antworten

Ich versuche zu laufen (py)Funken job auf EMR, der Prozess wird eine große Menge von Daten. Derzeit mein job fehlschlägt, mit der folgenden Fehlermeldung: Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of 5.5

amazon-emr amazon-web-services apache-spark emr pyspark

AWS-EMR-Leistung HDFS vs S3

3 Antworten

Big Data code ist ein wenig in den Daten für die Ausführung. Dies macht Sinn, da die Daten ist riesig und der code für die Ausführung ist relativ klein. Kommen AWS EMR die Daten können entweder in

amazon-emr amazon-s3 hadoop hdfs mapreduce

Funke + EMR mit Amazon "maximizeResourceAllocation" - Einstellung nicht alle Kerne/vcores

3 Antworten

Ich bin mit einer EMR-cluster (version emr-4.2.0) für Spark-Amazon-spezifische maximizeResourceAllocation fahne dokumentiert hier. Laut den docs, "diese option berechnet die maximale Rechen-und Speicher-Ressourcen zur Verfügung für ein Testamentsvollstrecker auf einen Knoten in der core-Knoten-Gruppe und legt die

amazon-emr apache-spark elastic-map-reduce emr yarn

Amazon EC2 vs. Amazon EMR

3 Antworten

Implementierte ich eine Aufgabe im Bienenstock. Derzeit ist es wunderbar funktioniert, auf meinem single-node-cluster. Jetzt bin ich für die Planung der Bereitstellung auf AWS. Ich weiß nichts über die AWS. Wenn ich Plane, verteilen Sie es dann,

amazon-ec2 amazon-emr amazon-web-services hive

Extrem langsame S3 mal schreiben, von EMR/ Spark

2 Antworten

Ich bin das schreiben, um zu sehen, ob jemand weiß, wie zu beschleunigen S3 mal schreiben, von Spark läuft in EMR? Meine Funke Job dauert über 4 Stunden dauern, jedoch ist der cluster nur unter Last während

amazon-emr amazon-s3 amazon-web-services apache-spark

Spark-UI auf AWS-EMR

3 Antworten

Ich bin mit einem AWS-EMR-cluster mit Spark (1.3.1) installiert, die über die EMR-Konsole dropdown-Menü. Spark ist eine aktuelle und Verarbeitung von Daten, aber ich versuche zu finden, welcher port zugewiesen wurde, um die WebUI. Ich habe versucht

amazon-emr apache-spark

So wählen Sie eine Datei aus aws s3 durch die Verwendung von Joker-Zeichen

3 Antworten

Habe ich viele Dateien im s3-bucket und die will ich kopieren Sie die Dateien der start-Datum von 2012. Unter diesem Befehl kopiert alle Datei. aws s3 cp s3://bp-dev/bp_source_input/C:\Business_Panorama\nts\data\in --recursive --include "201502_nts_*.xlsx" bedeutet, dass Platzhalter arbeiten? Wenn nicht,

amazon-emr amazon-s3 amazon-web-services

“Container getötet GARN für eine überschreitung der Speichergrenzen. 10.4 GB 10,4 GB physikalischen Speicher" auf einem EMR cluster mit 75GB Speicher

5 Antworten

Ich bin mit 5 Knoten Spark-cluster über die AWS-EMR jeder Größe m3.xlarge (1 master 4 slaves). Ich lief erfolgreich durch eine 146Mb bzip2-komprimierte CSV-Datei und endete mit einem perfekt aggregierte Ergebnis. Nun bin ich zu verarbeiten versucht

amazon-emr apache-spark bigdata emr

Ordner nicht löschen, die auf Amazon S3

5 Antworten

Ich versuche zu löschen, einen Ordner erstellt, als Ergebnis einer MapReduce-job. Andere Dateien in den Eimer zu löschen ganz gut, aber dieser Ordner nicht löschen. Wenn ich versuche, es zu löschen von der Konsole aus, die Statusanzeige

amazon-emr amazon-s3 amazon-web-services

Tut Hive haben etwas vergleichbares DUAL?

5 Antworten

Ich würde gerne Aussagen wie SELECT date_add('2008-12-31', 1) FROM DUAL Tut Hive (auf Amazon EMR) haben etwas ähnliches? InformationsquelleAutor der Frage jbreed | 2012-03-20

amazon-emr hadoop hive

Wie erstellt man aus den JSON-Daten eine HIVE-Tabelle?

5 Antworten

Möchte ich zum erstellen einer Hive-Tabelle, aus der einige der JSON-Daten (geschachtelte) und ausführen von Abfragen auf? Ist das überhaupt möglich? Habe ich bekommen, wie weit das hochladen der JSON-Datei zu S3 und Einführung einer EMR-Instanz, aber

amazon-emr emr hadoop hive json

Umgang mit Feldern in Anführungszeichen (CSV) beim Importieren von Daten aus S3 in DynamoDB mit EMR / Hive

7 Antworten

Ich versuche, mit EMR - /Hive importieren von Daten aus S3 in DynamoDB. Meine CSV-Datei hat Felder, die sind eingeschlossen in doppelten Anführungszeichen und durch Komma getrennt. Beim anlegen der externen Tabelle in hive, ich bin in

amazon-dynamodb amazon-emr amazon-s3 amazon-web-services hive

Anwendungsbericht für Anwendung_ (Status: ACCEPTED) endet niemals für Spark Submit (mit Spark 1.2.0 auf YARN)

12 Antworten

Ich bin mit kinesis-plus spark-Anwendung https://spark.apache.org/docs/1.2.0/streaming-kinesis-integration.html Läuft bei mir wie unten Befehl ec2-instance : ./spark/bin/spark-submit --class org.apache.spark.examples.streaming.myclassname --master yarn-cluster --num-executors 2 --driver-memory 1g --executor-memory 1g --executor-cores 1 /home/hadoop/test.jar Habe ich installiert Funke an EMR. EMR details Master

amazon-emr amazon-kinesis apache-spark yarn