Tag: amazon-emr

Amazon Elastic MapReduce (Amazon EMR) ist ein web-service, mit dem Unternehmen, Forscher, Datenanalysten und Entwickler einfach und kostengünstig riesige Datenmengen verarbeiten können. Es nutzt eine gehostete Hadoop-framework läuft auf dem web-scale-Infrastruktur von Amazon Elastic Compute Cloud (Amazon EC2) und Amazon Simple Storage Service (Amazon S3).

wie speedup amazon EMR-bootstrap?

Anzahl der Antworten 3 Antworten
Ich bin mit amazon EMR für einige intensive Berechnung, aber, es dauert etwa 7 min zum starten-computing, gibt es einige clevere Möglichkeit zu haben, meine Berechnung ab sofort ? Die Berechnung ist ein python-stream gestartet von einem

die Verwendung von amazon s3 als Eingabe -, Ausgabe und Zwischenergebnisse gespeichert in EMR-Karte reduzieren job

Anzahl der Antworten 2 Antworten
Ich versuche, mit Amazon s3-Speicher mit EMR. Allerdings, wenn ich derzeit mein code bekomme ich mehrere Fehler, wie java.lang.IllegalArgumentException: This file system object (hdfs://10.254.37.109:9000) does not support access to the request path 's3n://energydata/input/centers_200_10k_norm.csv' You possibly called FileSystem.get(conf)

Wie funktioniert S3 weisen einen Zeitstempel beim upload?

Anzahl der Antworten 2 Antworten
Wir haben ein Verfahren, das hochladen von Dateien zu S3. In der Tat, es ist eine indirekte. Wir nutzen Amazon Elastic MapReduce (EMR) und Hadoop verpflichtet, die Dateien zu S3, aus vielen verschiedenen task-Knoten. Dann, nach, dass

Hat einer EMR-master-Knoten wissen, seine cluster-ID?

Anzahl der Antworten 5 Antworten
Ich möchte in der Lage sein zu erstellen EMR-Cluster, und für diejenigen Cluster, die zum senden von Nachrichten an eine zentrale Warteschlange. Um für diese zu arbeiten, ich brauche, um irgendeine Art von agent läuft auf jedem

HIVE Externe Tisch - Set-Leer-Strings auf NULL

Anzahl der Antworten 1 Antworten
Aktuell habe ich einen HIVE 0.7-Instanz auf Amazon EMR. Ich bin versuchen, um eine Kopie der Instanz auf eine neue EMR-cluster verwenden von Hive 0.11. In meinem 0.7 Beispiel ich habe eine externe Tabelle, die leere Zeichenfolgen

Hinzufügen Spaltentitel, um die hive-Ergebnis eingestellt

Anzahl der Antworten 4 Antworten
Ich bin mit einem hive-Skript in Amazon EMR zu analysieren, einige Daten. Und ich bin mit der übertragung der Ausgabe auf Amazon s3-bucket. Nun die Ergebnisse der hive-Skripts nicht enthalten Spaltenüberschriften. Habe ich auch versucht, mit Hilfe

So starten und konfigurieren einer EMR-cluster mit boto

Anzahl der Antworten 4 Antworten
Ich versuche zu starten, einen cluster und einen job ausführen alle mit boto. Ich finde viele Beispiele für das erstellen job_flows. Aber ich kann nicht für das Leben von mir, finden Sie ein Beispiel, das zeigt: Wie

Wie Sie ein Glas in zeppelin?

Anzahl der Antworten 4 Antworten
Wie Sie ein Glas in Zeppelin für %hive-interpreter? Habe ich versucht %z.dep(''); add jar <jar path> Auch zeppelin-hive-interpreter wirft ClassNotFoundException Hinzufügen ./interpreter/hive/ Durchführungen Sparsamkeit Ausnahme, während add jar sagt Datei nicht gefunden. Wie es zu tun? Ich

Pfad einer Datei in hdfs

Anzahl der Antworten 1 Antworten
Ich soll die Datei zu Lesen, aus dem Hadoop-Dateisystem. Zu erreichen, um den korrekten Pfad der Datei, muss ich den host-Namen und port-Adresse des hdfs. also endlich meinen Pfad der Datei sieht etwa wie Path path =

Probleme mit distcp und s3distcp mit meinem EMR-Auftrag, die Ausgänge zu HDFS

Anzahl der Antworten 2 Antworten
Habe ich einen job ausführen, die auf der AWS-EMR, gespeichert und der Ausgang in EMR-job ' s HDFS. Ich bin dann versucht zu kopieren das Ergebnis zu S3 über distcp oder s3distcp, aber beide sind nicht die,

Pyspark - Datei Laden: Pfad nicht vorhanden ist

Anzahl der Antworten 1 Antworten
Ich bin ein Neuling auf Spark. Ich versuche zu Lesen, eine lokale csv-Datei in einem EMR cluster. Die Datei befindet sich in: /home/hadoop/. Das Skript, dass ich verwende ist dieses: spark = SparkSession \ .builder \ .appName("Protob

Hive Table add partition laden alle Unterverzeichnisse

Anzahl der Antworten 2 Antworten
Bin ich mit hive (mit externen Tabellen) zum verarbeiten von Daten in amazon S3 gespeicherten. Meine Daten sind wie folgt partitioniert: group/team/dt/ (z.B. eine Daten-Datei kann gespeichert werden, in einen Pfad group=myGroup/team=myTeam/dt=20120603) Ich würde gerne die Verarbeitung

FEHLGESCHLAGEN: ParseException: kann nicht erkennen, Eingang in der Nähe von 'exchange' 'string' ',' in der Spalte Spezifikation

Anzahl der Antworten 2 Antworten
Ich bin mit die Letzte AWS-Hive-version 0.13.0. FAILED: ParseException: cannot recognize input near 'exchange' 'string' ',' in column specification Bin ich immer die obige Fehlermeldung, wenn ich unten(create table) Abfrage. CREATE EXTERNAL TABLE test ( foo string,

Steigerung der spark.Garn.executor.memoryOverhead

Anzahl der Antworten 2 Antworten
Ich versuche zu laufen (py)Funken job auf EMR, der Prozess wird eine große Menge von Daten. Derzeit mein job fehlschlägt, mit der folgenden Fehlermeldung: Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of 5.5

AWS-EMR-Leistung HDFS vs S3

Anzahl der Antworten 3 Antworten
Big Data code ist ein wenig in den Daten für die Ausführung. Dies macht Sinn, da die Daten ist riesig und der code für die Ausführung ist relativ klein. Kommen AWS EMR die Daten können entweder in

Funke + EMR mit Amazon "maximizeResourceAllocation" - Einstellung nicht alle Kerne/vcores

Anzahl der Antworten 3 Antworten
Ich bin mit einer EMR-cluster (version emr-4.2.0) für Spark-Amazon-spezifische maximizeResourceAllocation fahne dokumentiert hier. Laut den docs, "diese option berechnet die maximale Rechen-und Speicher-Ressourcen zur Verfügung für ein Testamentsvollstrecker auf einen Knoten in der core-Knoten-Gruppe und legt die

Amazon EC2 vs. Amazon EMR

Anzahl der Antworten 3 Antworten
Implementierte ich eine Aufgabe im Bienenstock. Derzeit ist es wunderbar funktioniert, auf meinem single-node-cluster. Jetzt bin ich für die Planung der Bereitstellung auf AWS. Ich weiß nichts über die AWS. Wenn ich Plane, verteilen Sie es dann,

Extrem langsame S3 mal schreiben, von EMR/ Spark

Anzahl der Antworten 2 Antworten
Ich bin das schreiben, um zu sehen, ob jemand weiß, wie zu beschleunigen S3 mal schreiben, von Spark läuft in EMR? Meine Funke Job dauert über 4 Stunden dauern, jedoch ist der cluster nur unter Last während

Spark-UI auf AWS-EMR

Anzahl der Antworten 3 Antworten
Ich bin mit einem AWS-EMR-cluster mit Spark (1.3.1) installiert, die über die EMR-Konsole dropdown-Menü. Spark ist eine aktuelle und Verarbeitung von Daten, aber ich versuche zu finden, welcher port zugewiesen wurde, um die WebUI. Ich habe versucht

So wählen Sie eine Datei aus aws s3 durch die Verwendung von Joker-Zeichen

Anzahl der Antworten 3 Antworten
Habe ich viele Dateien im s3-bucket und die will ich kopieren Sie die Dateien der start-Datum von 2012. Unter diesem Befehl kopiert alle Datei. aws s3 cp s3://bp-dev/bp_source_input/C:\Business_Panorama\nts\data\in --recursive --include "201502_nts_*.xlsx" bedeutet, dass Platzhalter arbeiten? Wenn nicht,

“Container getötet GARN für eine überschreitung der Speichergrenzen. 10.4 GB 10,4 GB physikalischen Speicher" auf einem EMR cluster mit 75GB Speicher

Anzahl der Antworten 5 Antworten
Ich bin mit 5 Knoten Spark-cluster über die AWS-EMR jeder Größe m3.xlarge (1 master 4 slaves). Ich lief erfolgreich durch eine 146Mb bzip2-komprimierte CSV-Datei und endete mit einem perfekt aggregierte Ergebnis. Nun bin ich zu verarbeiten versucht

Ordner nicht löschen, die auf Amazon S3

Anzahl der Antworten 5 Antworten
Ich versuche zu löschen, einen Ordner erstellt, als Ergebnis einer MapReduce-job. Andere Dateien in den Eimer zu löschen ganz gut, aber dieser Ordner nicht löschen. Wenn ich versuche, es zu löschen von der Konsole aus, die Statusanzeige

Tut Hive haben etwas vergleichbares DUAL?

Anzahl der Antworten 5 Antworten
Ich würde gerne Aussagen wie SELECT date_add('2008-12-31', 1) FROM DUAL Tut Hive (auf Amazon EMR) haben etwas ähnliches? InformationsquelleAutor der Frage jbreed | 2012-03-20

Wie erstellt man aus den JSON-Daten eine HIVE-Tabelle?

Anzahl der Antworten 5 Antworten
Möchte ich zum erstellen einer Hive-Tabelle, aus der einige der JSON-Daten (geschachtelte) und ausführen von Abfragen auf? Ist das überhaupt möglich? Habe ich bekommen, wie weit das hochladen der JSON-Datei zu S3 und Einführung einer EMR-Instanz, aber

Umgang mit Feldern in Anführungszeichen (CSV) beim Importieren von Daten aus S3 in DynamoDB mit EMR / Hive

Anzahl der Antworten 7 Antworten
Ich versuche, mit EMR - /Hive importieren von Daten aus S3 in DynamoDB. Meine CSV-Datei hat Felder, die sind eingeschlossen in doppelten Anführungszeichen und durch Komma getrennt. Beim anlegen der externen Tabelle in hive, ich bin in

Anwendungsbericht für Anwendung_ (Status: ACCEPTED) endet niemals für Spark Submit (mit Spark 1.2.0 auf YARN)

Anzahl der Antworten 12 Antworten
Ich bin mit kinesis-plus spark-Anwendung https://spark.apache.org/docs/1.2.0/streaming-kinesis-integration.html Läuft bei mir wie unten Befehl ec2-instance : ./spark/bin/spark-submit --class org.apache.spark.examples.streaming.myclassname --master yarn-cluster --num-executors 2 --driver-memory 1g --executor-memory 1g --executor-cores 1 /home/hadoop/test.jar Habe ich installiert Funke an EMR. EMR details Master