Tag: elastic-map-reduce

Amazon Elastic MapReduce ist ein web-service ermöglicht die Verarbeitung von großen Datenmengen.

Be-Daten mit Hive, S3, EMR und Partitionen Wiederherstellen

Anzahl der Antworten 1 Antworten
GELÖST: Siehe Update #2 unten für die 'Lösung' dieses Problems. ~~~~~~~ In s3 habe ich einige log*.gz-Dateien gespeichert, die in einer verschachtelten Verzeichnisstruktur wie: s3://($BUCKET)/y=2012/m=11/d=09/H=10/ Ich bin versucht zu laden, diese in die Hive auf " Elastic

Hive — split-Daten in Dateien

Anzahl der Antworten 1 Antworten
Ist es, einen Weg zu weisen Hive zum aufteilen der Daten in mehrere Ausgabe-Dateien? Oder vielleicht cap die Größe der Ausgabe-Dateien. Ich bin der Planung bis zur Nutzung die Rotverschiebung, die empfiehlt Aufspaltung der Daten in mehrere

Wie Anzahl der mapreduce-Aufgabe gleich 1 im hive

Anzahl der Antworten 1 Antworten
Ich habe versucht, nach hive- set hive.exec.reducers.max = 1; set mapred.reduce.tasks = 1; from flat_json insert overwrite table aggr_pgm_measure PARTITION(dt='${START_TIME}') reduce log_time, req_id, ac_id, client_key, rulename, categoryname, bsid, visitorid, visitorgroupid, visitortargetid, targetpopulationid, windowsessionid, eventseq, event_code, eventstarttime using

Probleme mit distcp und s3distcp mit meinem EMR-Auftrag, die Ausgänge zu HDFS

Anzahl der Antworten 2 Antworten
Habe ich einen job ausführen, die auf der AWS-EMR, gespeichert und der Ausgang in EMR-job ' s HDFS. Ich bin dann versucht zu kopieren das Ergebnis zu S3 über distcp oder s3distcp, aber beide sind nicht die,

FEHLER: NullPointerException null-HIVE-ABFRAGE

Anzahl der Antworten 1 Antworten
Folgenden ist die HIVE-Abfrage, die ich verwende, bin ich auch mit einer Ranking-Funktion. Ich verwende diese auf meinem lokalen Rechner. SELECT numeric_id, location, Rank(location), followers_count FROM ( SELECT numeric_id, location, followers_count FROM twitter_data DISTRIBUTE BY numeric_id, location

Hive: wandeln Sie eine durch Komma getrennte Zeichenfolge-array für die Tabelle erzeugende Funktion

Anzahl der Antworten 1 Antworten
Ich bin erstellen einer Hive-Tabelle auf Amazon Elastic MapReduce durch die Verwendung von ein JSON-codierte Datei. Ich bin mit diesem JSON SerDe: http://code.google.com/p/hive-json-serde/ Den nicht-codierten Datei sieht wie folgt aus: {"id":"101", "items":"A:231,234,119,12"} {"id":"102", "items":"B:13,89,121"} ... Ich würde

erstellen von hive-Tabelle, die aus tab-getrennte Datei in s3 mit dem interaktiven Modus

Anzahl der Antworten 1 Antworten
Hab ich geladen tab-getrennte Dateien in S3, dass mit dieser Art von Ordnern unter dem Eimer: Eimer --> se --> y=2013 --> m=07 --> d=14 --> h=00 jeden Unterordner 1 Datei, das darstellen einer Stunde mein traffic.

Die reduzieren, scheitert an der Aufgabe ist fehlgeschlagen, um den status zu berichten, für 600 Sekunden. Töten! Lösung?

Anzahl der Antworten 2 Antworten
Reduzieren die phase der job schlägt fehl mit: fehlgeschlagen Reduzieren, Aufgaben überschreitung der erlaubten Grenze. Der Grund, warum jede Aufgabe scheitert ist: Aufgabe attempt_201301251556_1637_r_000005_0 fehlgeschlagen, um den status zu berichten, für 600 Sekunden. Töten! Problem im detail:

Funke + EMR mit Amazon "maximizeResourceAllocation" - Einstellung nicht alle Kerne/vcores

Anzahl der Antworten 3 Antworten
Ich bin mit einer EMR-cluster (version emr-4.2.0) für Spark-Amazon-spezifische maximizeResourceAllocation fahne dokumentiert hier. Laut den docs, "diese option berechnet die maximale Rechen-und Speicher-Ressourcen zur Verfügung für ein Testamentsvollstrecker auf einen Knoten in der core-Knoten-Gruppe und legt die

Löschen Sie alle Partitionen, die aus einer hive-Tabelle?

Anzahl der Antworten 5 Antworten
Wie kann ich löschen Sie alle Partitionen, die derzeit geladen in eine Hive-Tabelle? Kann ich drop eine einzelne partition mit alter table <table> drop partition(a=, b=...); Kann ich laden alle Partitionen mit dem recover partitions-Anweisung. Aber ich

Einplanung Eines Jobs auf AWS EC2

Anzahl der Antworten 7 Antworten
Habe ich eine website läuft auf AWS EC2. Ich brauche zum erstellen einer nächtlichen job generiert eine sitemap-Datei und lädt die Dateien auf den verschiedenen Browsern. Ich bin auf der Suche nach einem utility, die auf AWS

Exportieren Hive-Tabelle in einen S3-bucket

Anzahl der Antworten 3 Antworten
Ich habe eine Hive-Tabelle, die durch eine Elastische MapReduce interaktive Sitzung und aufgefüllt, die es aus einer CSV-Datei wie folgt: CREATE TABLE csvimport(id BIGINT, time STRING, log STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; LOAD DATA

Sichern Sie AWS Dynamodb bis S3

Anzahl der Antworten 8 Antworten
Es wurde vorgeschlagen, auf Amazon docs http://aws.amazon.com/dynamodb/ unter anderem, dass Sie ein backup Ihrer dynamodb-Tabellen mithilfe von Elastic Map Reduce, Ich habe eine Allgemeine Verständnis, wie das funktionieren könnte, aber ich konnte nicht finden keine guides oder

Löschen einer Datei / eines Ordners aus Hadoop

Anzahl der Antworten 7 Antworten
Ich bin mit einer EMR-Aktivität innerhalb eines Data-Pipeline-Analyse von log-Dateien und ich bekomme die folgende Fehlermeldung, wenn mein Pipeline fehlschlägt: Exception in thread "main" org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://10.208.42.127:9000/home/hadoop/temp-output-s3copy already exists at org.apache.hadoop.mapred.FileOutputFormat.checkOutputSpecs(FileOutputFormat.java:121) at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:944) at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:905) at