Nutch regex-urlfilter-syntax
Ich bin mit Nutch v. 1.6 und es ist das Crawlen bestimmter Seiten korrekt, aber ich kann nicht scheinen, um die korrekte syntax für die Datei NUTCH_ROOT/conf/regex-urlfilter.txt
.
Die Seite, die ich durchforsten möchten, hat die URL ähnlich dieser:
http://www.example.com/foo.cfm
Auf dieser Seite gibt es zahlreiche links, die entsprechen dem folgenden Muster:
http://www.example.com/foo.cfm/Bar_-_Foo/Extra/EX/20817/ID=6976
Ich links gecrawlt werden sollen, die übereinstimmen zweiten Beispiel oben auch. In meinem regex-urlfilter.txt
habe ich Folgendes:
+^http://www.example.com/foo.cfm$
+^http://www.example.com/foo.cfm/(.+)*$
Nutch-Spiele auf die erste und krabbelt es richtig, aber scheint nicht zu Holen, links, mit dem anderen filter. Wie bekomme ich Nutch zum Crawling URL ist wie die zweite oben?
Ich habe Folgendes versucht, ohne Erfolg:
+^http://www.example.com/foo.cfm/(.+)*$
+^http://www.example.com/foo.cfm/(.)*$
+^http://www.example.com/foo.cfm/.+$
+^http://www.example.com/foo.cfm/(.*)*$
In meinem NUTCH_ROOT/urls/nutch
ich habe:
http://www.example.com/foo.cfm/
Du musst angemeldet sein, um einen Kommentar abzugeben.
Laut http://wiki.apache.org/nutch/FAQ#What_happens_if_I_inject_urls_several_times.3F Sie können nicht mehrere URLs (Sie werden ignoriert). Was über nur:
dem abdecken sollte die erste Zeile:
+^http://www.example.com/foo.cfm$
wie gut, oder, wenn es Probleme mit/
versuchen:Wo
//?
sollte stehen für Charakter/
oderStopping at depth=1 - no more URLs to fetch.
, also bin ich nicht sicher warum es nicht funktioniert. Das FAQ sieht aus wie eine gute Lektüre, wenn.