Tag: mrjob

Mrjob ist ein Python-2.5+ – Paket, das unterstützt die Erstellung und den Betrieb von Hadoop-Streaming-jobs

Python-Modul Importieren Fehler “ImportError: No module named mrjob.job"

Anzahl der Antworten 2 Antworten
System: Mac OSX 10.6.5, Python 2.6 Ich versuche, führen Sie das python-Skript unter: from mrjob.job import MRJob class MRWordCounter(MRJob): def mapper(self, key, line): for word in line.split(): yield word, 1 def reducer(self, word, occurrences): yield word, sum(occurrences)

Json-Eröffnung Yelp-Daten-Herausforderung Datensatz

Anzahl der Antworten 3 Antworten
Ich bin daran interessiert, data mining, und ich Schreibe meine Diplomarbeit über ihn. Für meine Diplomarbeit möchte ich die yelp-Daten-Herausforderung Daten-set, jedoch kann ich nicht öffnen, da es ist im json-format und fast 2 gb. Auf seiner

Die Ausführung der Aufgabe mit hadoop-streaming und mrjob: PipeMapRed.waitOutputThreads(): subprocess failed with code 1

Anzahl der Antworten 4 Antworten
Hey ich bin ziemlich neu in der Welt von Big Data. Ich kam in diesem tutorial, http://musicmachinery.com/2011/09/04/how-to-process-a-million-songs-in-20-minutes/ Es beschreibt im detail, wie zum ausführen von MapReduce-job mit mrjob sowohl lokal als auch auf die Elastische Karte Reduzieren.

Wie kann ich mehr Speicher zuzuteilen, um Python-Programm? Deren nicht mehr als 64 MB auf 4 GB RAM

Anzahl der Antworten 2 Antworten
Ich habe ein Python Programm auf eine Eingabe von Daten auf 4GB RAM 32-bit 12.04 Ubuntu. Die zeitliche und räumliche Komplexität des Programms sind beide O(n). Bei der Eingabe von Daten ist rund 100 kb, die es