Ausführen von hive-Abfragen und job-Informationen sammeln
Ich würde gerne eine Liste der erstellten HIVE-Abfragen.
Für jeden, ich möchte zum abrufen der HERR job_id (oder ids im Falle von mehreren Stufen).
Und dann, mit diesem job_id, das sammeln von Statistiken von job-tracker (kumulative CPU, bytes Lesen...)
Wie kann ich senden Sie HIVE-Abfragen aus einer bash-oder python-Skript, und rufen Sie die job_id(s) ?
Für den 2. Teil (sammeln von Statistiken für den job), benutzen wir eine MRv1 Hadoop-cluster, so dass ich nicht die AppMaster REST-API. Ich bin über das sammeln von Daten aus der jobtracker web-UI. Jede bessere Idee ?
Du musst angemeldet sein, um einen Kommentar abzugeben.
können Sie die Liste der jobs, die ausgeführt werden, indem dieser Befehl ausgeführt wird,
hadoop job -Liste alle
dann für jeden job-id können Sie abrufen der Statistiken, mit dem Befehl,
hadoop-job -status job-id
Und die Zuordnung der Arbeitsplätze mit einer Abfrage können Sie den Jobname und passen Sie es mit der Abfrage.
so etwas wie dieses,
Wie man die Namen des gerade Laufenden hadoop-jobs?
hoffe, das hilft.
hadoop
Skript ist veraltet, zu Gunsten vonmapred
so ist es am besten, um die nun folgenden Befehl ein.$ mapred job -status job-id