Tag: nutch

Nutch ist eine ausgereifte, produktionsfertige Web-crawler. Nutch ermöglicht eine fein abgestufte Konfiguration, die sich auf Apache Hadoop™ – Daten-Strukturen, die sich hervorragend für die batch-Verarbeitung.

Wie installieren und ausführen von Nutch in Windows 7 x64

Anzahl der Antworten 2 Antworten
Möchte ich laufen Nutch auf meinem Windows 7 x64. Ich habe Nutch-Versionen 1.5.1 und 2 von apache.spinellicreations.com/nutch/. Verwendet habe ich das tutorial auf wiki.apache.org/nutch/NutchTutorial. Aber ich Durcheinander in den zweiten Schritt und ich kann nicht überprüfen Sie

Eine alternative web-crawler Nutch

Anzahl der Antworten 5 Antworten
Ich versuche zu bauen, eine spezialisierte Suchmaschine Website, die Indizes eine begrenzte Anzahl von web-sites. Die Lösung, die ich kam mit: mit Nutch als der web-crawler, mit Solr als Suchmaschine, die front-end und die Website-Logik codiert ist

Wie Öffnet man eine Ameise Projekt (Nutch Quelle) bei Intellij Idea?

Anzahl der Antworten 4 Antworten
Ich das öffnen will Nutch 2.1 Quelldatei (http://www.eu.apache.org/dist/nutch/2.1/) bei Intellij IDEA. Hier ist eine Erklärung, wie es zu öffnen in Eclipse: http://wiki.apache.org/nutch/RunNutchInEclipse Aber ich bin nicht vertraut mit Ant (ich benutze Maven) und wenn ich öffnen Sie

Solr-Indexierung nach einer Nutch crawl fehlschlägt, meldet "Auftrag ist Fehlgeschlagen"

Anzahl der Antworten 3 Antworten
Ich habe eine Website gehostet auf meinem Rechner, die ich bin versucht zu krabbeln mit Nutch und Solr-index in (beide auch auf meiner lokalen Maschine). Ich installierte Solr 4.6.1 und Nutch 1,7 Prozent die Anweisungen auf dem

Tierpfleger unable to open socket auf localhost/0:0:0:0:0:0:0:1:2181

Anzahl der Antworten 2 Antworten
Ich bin mit zookeeper ensemble für hbase. Tierpfleger läuft auf 3 Maschinen. Während HBase ist auch in vollständig verteilten Modus. Ich habe Nutch 2.x-version. Wenn ich starten nutch zum Crawling einige Daten, gibt es folgende buggs in

Nutch Keine Agenten unter 'http.agent.name"

Anzahl der Antworten 2 Antworten
Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property. at org.apache.nutch.fetcher.Fetcher.checkConfiguration(Fetcher.java:1166) at org.apache.nutch.fetcher.Fetcher.fetch(Fetcher.java:1068) at org.apache.nutch.crawl.Crawl.run(Crawl.java:135) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) at org.apache.nutch.crawl.Crawl.main(Crawl.java:54) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:616) at org.apache.hadoop.util.RunJar.main(RunJar.java:156) Jedes mal, wenn ich

Nutch regex-urlfilter-syntax

Anzahl der Antworten 1 Antworten
Ich bin mit Nutch v. 1.6 und es ist das Crawlen bestimmter Seiten korrekt, aber ich kann nicht scheinen, um die korrekte syntax für die Datei NUTCH_ROOT/conf/regex-urlfilter.txt. Die Seite, die ich durchforsten möchten, hat die URL ähnlich

Crawlen von PDF-Dokumenten mithilfe von nutch

Anzahl der Antworten 3 Antworten
Ich kriechen müssen PDF-Dokumente aus der angegebenen URL... schlage vor jedes tool/API durchforsten PDF-Dokumente auch... jetzt bin ich mit nutch zu kriechen, aber ich konnte nicht kriechen PDF-Datei von der angegebenen URL...sollte ich mit jedem plugin zu

Nutch in Windows: Fehler beim festlegen der Berechtigungen von path

Anzahl der Antworten 5 Antworten
Ich versuche, die user mit Solr Nutch auf einem Windows-Rechner und ich bekomme die folgende Fehlermeldung: Exception in thread "main" java.io.IOException: Failed to set permissions of path: c:\temp\mapred\staging\admin-1654213299\.staging to 0700 Aus einer Menge von threads, die ich

Reicht der Platz für shared-memory-Datei, wenn ich versuche zu laufen, nutch Befehl erstellen

Anzahl der Antworten 2 Antworten
Ich habe läuft nutch-crawling-Befehle für die vergangen 3 Wochen und jetzt bekomme ich die folgende Fehlermeldung, wenn ich versuche zu starten nutch-Befehl Java HotSpot(TM) 64-Bit Server VM warning: nicht genügend Speicherplatz für shared-memory-Datei: /tmp/hsperfdata_user/27050 Versuchen Sie es

Web-Cralwer-Algorithmus: die Tiefe?

Anzahl der Antworten 7 Antworten
Arbeite ich an einem crawler und müssen genau verstehen, was gemeint ist mit "link-Tiefe". Nehmen nutch zum Beispiel: http://wiki.apache.org/nutch/NutchTutorial Tiefe an, die link-Tiefe von der root-Seite werden sollte gecrawlt. So, sagen, ich habe die domain www.domain.com und

Nutch-Cygwin, Wie set JAVA_HOME

Anzahl der Antworten 1 Antworten
ich versuche zu laufen Nutch mit Cygwin. Ich habe Probleme beim setzen der JAVA_HOME. $ export JAVA_HOME='/cygdrive/f/program files/java/jdk1.6.0_21' Wenn ich nutch-Befehl $ bin/nutch crawl bekomme ich cygpath: can't convert empty path bin/nutch: line 268: /cygdrive/f/program: No such

Wie ist ein aggregator gebaut?

Anzahl der Antworten 3 Antworten
Sagen wir, ich will, um aggregierte Informationen in Bezug auf eine bestimmte Nische aus vielen Quellen (könnte sein, Reisen, Technik, oder was auch immer). Wie soll ich das tun? Haben ein spider/crawler, der crawlt das web für

Mit Nutch-crawler mit Solr

Anzahl der Antworten 3 Antworten
Bin ich in der Lage zu integrieren Apache Nutch crawler mit der Solr-Index-server? Edit: Einer unserer devs kam mit einer Lösung aus diesen posts Läuft Nutch und Solr Update für die Ausführung von Nutch und Solr Antwort

keine Segmente* Datei gefunden

Anzahl der Antworten 2 Antworten
Ich brauche, um Zugang zu einem lucene-index ( erstellt durch Crawlen mehrere Webseiten mit Nutch), aber es gibt die oben aufgeführten Fehler : java.io.FileNotFoundException: no segments* file found in org.apache.lucene.store.FSDirectory@/home/<path>: files: at org.apache.lucene.index.SegmentInfos$FindSegmentsFile.run(SegmentInfos.java:516) at org.apache.lucene.index.IndexReader.open(IndexReader.java:185) at org.apache.lucene.index.IndexReader.open(IndexReader.java:148)