Nutch regex-urlfilter-syntax

Ich bin mit Nutch v. 1.6 und es ist das Crawlen bestimmter Seiten korrekt, aber ich kann nicht scheinen, um die korrekte syntax für die Datei NUTCH_ROOT/conf/regex-urlfilter.txt.

Die Seite, die ich durchforsten möchten, hat die URL ähnlich dieser:

http://www.example.com/foo.cfm

Auf dieser Seite gibt es zahlreiche links, die entsprechen dem folgenden Muster:

http://www.example.com/foo.cfm/Bar_-_Foo/Extra/EX/20817/ID=6976

Ich links gecrawlt werden sollen, die übereinstimmen zweiten Beispiel oben auch. In meinem regex-urlfilter.txt habe ich Folgendes:

+^http://www.example.com/foo.cfm$
+^http://www.example.com/foo.cfm/(.+)*$

Nutch-Spiele auf die erste und krabbelt es richtig, aber scheint nicht zu Holen, links, mit dem anderen filter. Wie bekomme ich Nutch zum Crawling URL ist wie die zweite oben?

Ich habe Folgendes versucht, ohne Erfolg:

+^http://www.example.com/foo.cfm/(.+)*$
+^http://www.example.com/foo.cfm/(.)*$
+^http://www.example.com/foo.cfm/.+$
+^http://www.example.com/foo.cfm/(.*)*$

In meinem NUTCH_ROOT/urls/nutch ich habe:

http://www.example.com/foo.cfm/

InformationsquelleAutor Nic Young | 2012-12-14

8

Laut http://wiki.apache.org/nutch/FAQ#What_happens_if_I_inject_urls_several_times.3F Sie können nicht mehrere URLs (Sie werden ignoriert). Was über nur:
```
+^http://www.example.com/foo.cfm/(.+)*$
```
dem abdecken sollte die erste Zeile: +^http://www.example.com/foo.cfm$ wie gut, oder, wenn es Probleme mit / versuchen:
```
+^http://www.example.com/foo.cfm//?(.+)*$
```
Wo //? sollte stehen für Charakter / oder
- Auf beide deiner Vorschläge, die ich bekomme: Stopping at depth=1 - no more URLs to fetch., also bin ich nicht sicher warum es nicht funktioniert. Das FAQ sieht aus wie eine gute Lektüre, wenn.
- so bedeutet es, dass es für die Tiefe 0? hmm, ich fand einige Beiträge zu deiner Fehlermeldung: lucene.472066.n3.nabble.com/... (2. post); oder stackoverflow.com/questions/11710492/...
- Danke für den Fang, die mehrere URLs in der FAQ.
InformationsquelleAutor xhudik

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.