Tag: amazon-emr
Amazon Elastic MapReduce (Amazon EMR) ist ein web-service, mit dem Unternehmen, Forscher, Datenanalysten und Entwickler einfach und kostengünstig riesige Datenmengen verarbeiten können. Es nutzt eine gehostete Hadoop-framework läuft auf dem web-scale-Infrastruktur von Amazon Elastic Compute Cloud (Amazon EC2) und Amazon Simple Storage Service (Amazon S3).
3
Antworten
Ich bin mit amazon EMR für einige intensive Berechnung, aber, es dauert etwa 7 min zum starten-computing, gibt es einige clevere Möglichkeit zu haben, meine Berechnung ab sofort ? Die Berechnung ist ein python-stream gestartet von einem
2
Antworten
Ich versuche, mit Amazon s3-Speicher mit EMR. Allerdings, wenn ich derzeit mein code bekomme ich mehrere Fehler, wie java.lang.IllegalArgumentException: This file system object (hdfs://10.254.37.109:9000) does not support access to the request path 's3n://energydata/input/centers_200_10k_norm.csv' You possibly called FileSystem.get(conf)
2
Antworten
Wir haben ein Verfahren, das hochladen von Dateien zu S3. In der Tat, es ist eine indirekte. Wir nutzen Amazon Elastic MapReduce (EMR) und Hadoop verpflichtet, die Dateien zu S3, aus vielen verschiedenen task-Knoten. Dann, nach, dass
5
Antworten
Ich möchte in der Lage sein zu erstellen EMR-Cluster, und für diejenigen Cluster, die zum senden von Nachrichten an eine zentrale Warteschlange. Um für diese zu arbeiten, ich brauche, um irgendeine Art von agent läuft auf jedem
1
Antworten
Aktuell habe ich einen HIVE 0.7-Instanz auf Amazon EMR. Ich bin versuchen, um eine Kopie der Instanz auf eine neue EMR-cluster verwenden von Hive 0.11. In meinem 0.7 Beispiel ich habe eine externe Tabelle, die leere Zeichenfolgen
4
Antworten
Ich bin mit einem hive-Skript in Amazon EMR zu analysieren, einige Daten. Und ich bin mit der übertragung der Ausgabe auf Amazon s3-bucket. Nun die Ergebnisse der hive-Skripts nicht enthalten Spaltenüberschriften. Habe ich auch versucht, mit Hilfe
4
Antworten
Ich versuche zu starten, einen cluster und einen job ausführen alle mit boto. Ich finde viele Beispiele für das erstellen job_flows. Aber ich kann nicht für das Leben von mir, finden Sie ein Beispiel, das zeigt: Wie
4
Antworten
Wie Sie ein Glas in Zeppelin für %hive-interpreter? Habe ich versucht %z.dep(''); add jar <jar path> Auch zeppelin-hive-interpreter wirft ClassNotFoundException Hinzufügen ./interpreter/hive/ Durchführungen Sparsamkeit Ausnahme, während add jar sagt Datei nicht gefunden. Wie es zu tun? Ich
1
Antworten
Ich soll die Datei zu Lesen, aus dem Hadoop-Dateisystem. Zu erreichen, um den korrekten Pfad der Datei, muss ich den host-Namen und port-Adresse des hdfs. also endlich meinen Pfad der Datei sieht etwa wie Path path =
2
Antworten
Habe ich einen job ausführen, die auf der AWS-EMR, gespeichert und der Ausgang in EMR-job ' s HDFS. Ich bin dann versucht zu kopieren das Ergebnis zu S3 über distcp oder s3distcp, aber beide sind nicht die,
1
Antworten
Ich bin ein Neuling auf Spark. Ich versuche zu Lesen, eine lokale csv-Datei in einem EMR cluster. Die Datei befindet sich in: /home/hadoop/. Das Skript, dass ich verwende ist dieses: spark = SparkSession \ .builder \ .appName("Protob
2
Antworten
Bin ich mit hive (mit externen Tabellen) zum verarbeiten von Daten in amazon S3 gespeicherten. Meine Daten sind wie folgt partitioniert: group/team/dt/ (z.B. eine Daten-Datei kann gespeichert werden, in einen Pfad group=myGroup/team=myTeam/dt=20120603) Ich würde gerne die Verarbeitung
2
Antworten
Ich bin mit die Letzte AWS-Hive-version 0.13.0. FAILED: ParseException: cannot recognize input near 'exchange' 'string' ',' in column specification Bin ich immer die obige Fehlermeldung, wenn ich unten(create table) Abfrage. CREATE EXTERNAL TABLE test ( foo string,
2
Antworten
Ich versuche zu laufen (py)Funken job auf EMR, der Prozess wird eine große Menge von Daten. Derzeit mein job fehlschlägt, mit der folgenden Fehlermeldung: Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of 5.5
3
Antworten
Big Data code ist ein wenig in den Daten für die Ausführung. Dies macht Sinn, da die Daten ist riesig und der code für die Ausführung ist relativ klein. Kommen AWS EMR die Daten können entweder in
3
Antworten
Ich bin mit einer EMR-cluster (version emr-4.2.0) für Spark-Amazon-spezifische maximizeResourceAllocation fahne dokumentiert hier. Laut den docs, "diese option berechnet die maximale Rechen-und Speicher-Ressourcen zur Verfügung für ein Testamentsvollstrecker auf einen Knoten in der core-Knoten-Gruppe und legt die
3
Antworten
Implementierte ich eine Aufgabe im Bienenstock. Derzeit ist es wunderbar funktioniert, auf meinem single-node-cluster. Jetzt bin ich für die Planung der Bereitstellung auf AWS. Ich weiß nichts über die AWS. Wenn ich Plane, verteilen Sie es dann,
2
Antworten
Ich bin das schreiben, um zu sehen, ob jemand weiß, wie zu beschleunigen S3 mal schreiben, von Spark läuft in EMR? Meine Funke Job dauert über 4 Stunden dauern, jedoch ist der cluster nur unter Last während
3
Antworten
Ich bin mit einem AWS-EMR-cluster mit Spark (1.3.1) installiert, die über die EMR-Konsole dropdown-Menü. Spark ist eine aktuelle und Verarbeitung von Daten, aber ich versuche zu finden, welcher port zugewiesen wurde, um die WebUI. Ich habe versucht
3
Antworten
Habe ich viele Dateien im s3-bucket und die will ich kopieren Sie die Dateien der start-Datum von 2012. Unter diesem Befehl kopiert alle Datei. aws s3 cp s3://bp-dev/bp_source_input/C:\Business_Panorama\nts\data\in --recursive --include "201502_nts_*.xlsx" bedeutet, dass Platzhalter arbeiten? Wenn nicht,
5
Antworten
Ich bin mit 5 Knoten Spark-cluster über die AWS-EMR jeder Größe m3.xlarge (1 master 4 slaves). Ich lief erfolgreich durch eine 146Mb bzip2-komprimierte CSV-Datei und endete mit einem perfekt aggregierte Ergebnis. Nun bin ich zu verarbeiten versucht
5
Antworten
Ich versuche zu löschen, einen Ordner erstellt, als Ergebnis einer MapReduce-job. Andere Dateien in den Eimer zu löschen ganz gut, aber dieser Ordner nicht löschen. Wenn ich versuche, es zu löschen von der Konsole aus, die Statusanzeige
5
Antworten
Ich würde gerne Aussagen wie SELECT date_add('2008-12-31', 1) FROM DUAL Tut Hive (auf Amazon EMR) haben etwas ähnliches? InformationsquelleAutor der Frage jbreed | 2012-03-20
5
Antworten
Möchte ich zum erstellen einer Hive-Tabelle, aus der einige der JSON-Daten (geschachtelte) und ausführen von Abfragen auf? Ist das überhaupt möglich? Habe ich bekommen, wie weit das hochladen der JSON-Datei zu S3 und Einführung einer EMR-Instanz, aber
7
Antworten
Ich versuche, mit EMR - /Hive importieren von Daten aus S3 in DynamoDB. Meine CSV-Datei hat Felder, die sind eingeschlossen in doppelten Anführungszeichen und durch Komma getrennt. Beim anlegen der externen Tabelle in hive, ich bin in
12
Antworten
Ich bin mit kinesis-plus spark-Anwendung https://spark.apache.org/docs/1.2.0/streaming-kinesis-integration.html Läuft bei mir wie unten Befehl ec2-instance : ./spark/bin/spark-submit --class org.apache.spark.examples.streaming.myclassname --master yarn-cluster --num-executors 2 --driver-memory 1g --executor-memory 1g --executor-cores 1 /home/hadoop/test.jar Habe ich installiert Funke an EMR. EMR details Master