Nutch regex-urlfilter-syntax

Ich bin mit Nutch v. 1.6 und es ist das Crawlen bestimmter Seiten korrekt, aber ich kann nicht scheinen, um die korrekte syntax für die Datei NUTCH_ROOT/conf/regex-urlfilter.txt.

Die Seite, die ich durchforsten möchten, hat die URL ähnlich dieser:

http://www.example.com/foo.cfm

Auf dieser Seite gibt es zahlreiche links, die entsprechen dem folgenden Muster:

http://www.example.com/foo.cfm/Bar_-_Foo/Extra/EX/20817/ID=6976

Ich links gecrawlt werden sollen, die übereinstimmen zweiten Beispiel oben auch. In meinem regex-urlfilter.txt habe ich Folgendes:

+^http://www.example.com/foo.cfm$
+^http://www.example.com/foo.cfm/(.+)*$

Nutch-Spiele auf die erste und krabbelt es richtig, aber scheint nicht zu Holen, links, mit dem anderen filter. Wie bekomme ich Nutch zum Crawling URL ist wie die zweite oben?

Ich habe Folgendes versucht, ohne Erfolg:

+^http://www.example.com/foo.cfm/(.+)*$
+^http://www.example.com/foo.cfm/(.)*$
+^http://www.example.com/foo.cfm/.+$
+^http://www.example.com/foo.cfm/(.*)*$

In meinem NUTCH_ROOT/urls/nutch ich habe:

http://www.example.com/foo.cfm/
InformationsquelleAutor Nic Young | 2012-12-14
Schreibe einen Kommentar