Scrapy crawler in Cron-job

Ich durchführen wollen mein scrapy crawler von cron-job .

ich erstellen bash-Datei getdata.sh wo scrapy-Projekt befindet sich mit Spinnen

#!/bin/bash
cd /myfolder/crawlers/
scrapy crawl my_spider_name

Meine crontab sieht so aus , ich wollt in jeder 5-Minuten -

 */5 * * * * sh /myfolder/crawlers/getdata.sh

aber es nicht funktioniert , was ist falsch , wo ist mein Fehler ?

wenn ich Sie ausführen, meine bash-Datei aus dem terminal-sh /myfolder/crawlers/getdata.sh es funktioniert gut

ist die sh "Präfix" in */5 * * * * sh /myfolder/crawlers/getdata.sh erforderlich zum ausführen von shell-Skripts aus crontab???

InformationsquelleAutor beka | 2013-06-21

23

Löste ich dieses problem, einschließlich PFAD in bash-Datei
```
#!/bin/bash

cd /myfolder/crawlers/
PATH=$PATH:/usr/local/bin
export PATH
scrapy crawl my_spider_name
```
- +1 Hatte das gleiche problem und konnte Sie einfach nicht heraus. Markieren Sie Ihre Frage als Antwort akzeptiert. 🙂
- Ich denke, der PFAD muss nicht immer auf /usr/local/bin, es hängt davon ab, in welcher Umgebung und server, die Sie sind, richtig? Also, was sollte der PFAD eingestellt werden? Der Ordner.... ?
- Ich bin kein Linux-guru, kann mir jemand ELI5 warum die Ausführung der bash-Skript von der bash funktioniert, aber die Ausführung ist es in der cron tut?
InformationsquelleAutor beka
8

Hinzufügen der folgenden Zeilen in crontab -e läuft mein scrapy crawl um 5 Uhr morgens, jeden Tag. Dies ist eine leicht modifizierte version von crocs - ' Antwort
```
PATH=/usr/bin
* 5 * * * cd project_folder/project_name/&& scrapy crawl spider_name
```
Ohne Einstellung $PATH, cron würde mir eine Fehlermeldung "Befehl nicht gefunden: scrapy". Ich denke, das ist, weil /usr/bin ist, wo Skripte ausgeführt werden Programme, gespeichert in Ubuntu.

Beachten Sie, dass der vollständige Pfad für meine scrapy Projekt ist /home/user/project_folder/project_name. Ich lief die env-Befehl in cron und bemerkt, dass das Arbeitsverzeichnis ist /home/user. Daher habe ich übersprungen /home/user in meiner crontab oben

Den cron-log kann hilfreich sein beim Debuggen
```
grep CRON /var/log/syslog
```
InformationsquelleAutor NFern
2

Andere Möglichkeit ist, zu vergessen, mit einem shell-Skript und die Kette die die beiden Befehle zusammen, die direkt in den cronjob. Nur stellen Sie sicher, dass die PATH-variable gesetzt ist, bevor die ersten scrapy cronjob in die crontab Liste. Ausführung:
```
    crontab -e 
```
Bearbeiten und haben einen Blick. Ich habe mehrere scrapy-crawler, die zu den verschiedenen Zeiten. Einige alle 5 Minuten, andere zweimal am Tag.
```
    PATH=/usr/local/bin
    */5 * * * * user cd /myfolder/crawlers/&& scrapy crawl my_spider_name_1
    * 1,13 * * * user cd /myfolder/crawlers/&& scrapy crawl my_spider_name_2
```
Alle jobs befindet sich nach der PATH-variable finden scrapy. Hier der erste Lauf alle 5 Minuten und die 2. zweimal am Tag um 1 Uhr nachts und 1 Uhr. Ich fand das einfacher zu verwalten. Wenn Sie andere Binärdateien ausführen, dann müssen Sie Ihre Standorte auf den Weg.

InformationsquelleAutor croc
2

Für alle, die mit pip3 (oder ähnlich) zu installieren scrapy, hier ist eine einfache inline-Lösung:
```
*/10 * * * * cd ~/project/path && ~/.local/bin/scrapy crawl something >> ~/crawl.log 2>&1
```
Ersetzen:

*/10 * * * * mit Ihrem cron-pattern

~/project/path mit dem Pfad zu Ihrem scrapy-Projekt (wo Ihr scrapy.cfg ist)

something mit der spider-Namen (verwenden Sie scrapy list in Ihrem Projekt herausfinden)

~/crawl.log mit Ihren log-Datei-position (im Falle Sie haben wollen, Protokollierung)
- wo geht der Weg ~/.local/bin/scrapy kommen, oder welche Bedeutung hat es?
- Das ist der Ort, wo die scrapy Befehl war günstig für mich, wenn es bei der Installation mit pip3. Da die Ebene scrapy Befehl nicht verfügbar war in meinem cron-Kontext, ich löste es, indem der Zugriff direkt.
- würde verhindern, dass die Notwendigkeit zu ändern PATH?
- ja, PATH ist irrelevant, wenn der Zugriff auf den Befehl direkt
- ok, interessant. vielleicht krank erwägen, dass statt
InformationsquelleAutor nottmey
1

Überprüfen, wo scrapy installiert ist mit "die scrapy" - Befehl.
In meinem Fall, scrapy ist installiert in /usr/local/bin.

Öffnen Sie die crontab zur Bearbeitung mit crontab -e.
PATH=$PATH:/usr/local/bin export PATH */5 * * * * cd /myfolder/path && scrapy crawl spider_name

Sollte es funktionieren.
Scrapy läuft alle 5 Minuten.

InformationsquelleAutor simba
0

nicht, Ihr shell-Skript über die execute-Berechtigung?

z.B. können Sie tun,
```
  /myfolder/crawlers/getdata.sh 
```
ohne sh?

wenn Sie können dann löschen Sie die sh in der Zeile in der cron
- Nein, es schreibt, dass die Berechtigungen verweigert
- Sie tun müssen chmod u+x /myfolder/crawlers/getdata.sh geben Sie die execute-Berechtigung. das ist das, was die #!/bin/bash Linie macht - das muss die erste Zeile in der Datei
- ich gebe es-Berechtigungen und entfernen "sh" in den crontab, aber es immer noch nicht funktioniert :S
- Sie können hinzufügen >/tmp/cron.log 2>&1 an das Ende des Befehls, um die Fehler sehen. Möglicherweise ist das script nicht zugreifen scrappy wenn es in einem non-standard Platz
InformationsquelleAutor KeepCalmAndCarryOn
0

in meinem Fall scrapy ist in .local/bin/scrapy geben Sie den richtigen Pfad der Abstreifer und nennen es Arbeit perfekt

0 0 * * * cd /home/user/Schaber/Folder_of_scriper/&& /home/user/.local/bin/scrapy crawl "name" >> /home/user/scrapy.log 2>&1

/home/user/scrapy.melden Sie es verwenden, um speichern Sie die Ausgabe und Fehler in scrapy.melden Sie sich für das check it-Programm arbeiten, oder nicht

danke.

InformationsquelleAutor Nikulsinh

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.