Tag: nutch
Nutch ist eine ausgereifte, produktionsfertige Web-crawler. Nutch ermöglicht eine fein abgestufte Konfiguration, die sich auf Apache Hadoop™ – Daten-Strukturen, die sich hervorragend für die batch-Verarbeitung.
2
Antworten
Möchte ich laufen Nutch auf meinem Windows 7 x64. Ich habe Nutch-Versionen 1.5.1 und 2 von apache.spinellicreations.com/nutch/. Verwendet habe ich das tutorial auf wiki.apache.org/nutch/NutchTutorial. Aber ich Durcheinander in den zweiten Schritt und ich kann nicht überprüfen Sie
5
Antworten
Ich versuche zu bauen, eine spezialisierte Suchmaschine Website, die Indizes eine begrenzte Anzahl von web-sites. Die Lösung, die ich kam mit: mit Nutch als der web-crawler, mit Solr als Suchmaschine, die front-end und die Website-Logik codiert ist
4
Antworten
Ich das öffnen will Nutch 2.1 Quelldatei (http://www.eu.apache.org/dist/nutch/2.1/) bei Intellij IDEA. Hier ist eine Erklärung, wie es zu öffnen in Eclipse: http://wiki.apache.org/nutch/RunNutchInEclipse Aber ich bin nicht vertraut mit Ant (ich benutze Maven) und wenn ich öffnen Sie
3
Antworten
Ich habe eine Website gehostet auf meinem Rechner, die ich bin versucht zu krabbeln mit Nutch und Solr-index in (beide auch auf meiner lokalen Maschine). Ich installierte Solr 4.6.1 und Nutch 1,7 Prozent die Anweisungen auf dem
2
Antworten
Ich bin mit zookeeper ensemble für hbase. Tierpfleger läuft auf 3 Maschinen. Während HBase ist auch in vollständig verteilten Modus. Ich habe Nutch 2.x-version. Wenn ich starten nutch zum Crawling einige Daten, gibt es folgende buggs in
2
Antworten
Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property. at org.apache.nutch.fetcher.Fetcher.checkConfiguration(Fetcher.java:1166) at org.apache.nutch.fetcher.Fetcher.fetch(Fetcher.java:1068) at org.apache.nutch.crawl.Crawl.run(Crawl.java:135) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) at org.apache.nutch.crawl.Crawl.main(Crawl.java:54) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:616) at org.apache.hadoop.util.RunJar.main(RunJar.java:156) Jedes mal, wenn ich
1
Antworten
Ich bin mit Nutch v. 1.6 und es ist das Crawlen bestimmter Seiten korrekt, aber ich kann nicht scheinen, um die korrekte syntax für die Datei NUTCH_ROOT/conf/regex-urlfilter.txt. Die Seite, die ich durchforsten möchten, hat die URL ähnlich
3
Antworten
Ich kriechen müssen PDF-Dokumente aus der angegebenen URL... schlage vor jedes tool/API durchforsten PDF-Dokumente auch... jetzt bin ich mit nutch zu kriechen, aber ich konnte nicht kriechen PDF-Datei von der angegebenen URL...sollte ich mit jedem plugin zu
5
Antworten
Ich versuche, die user mit Solr Nutch auf einem Windows-Rechner und ich bekomme die folgende Fehlermeldung: Exception in thread "main" java.io.IOException: Failed to set permissions of path: c:\temp\mapred\staging\admin-1654213299\.staging to 0700 Aus einer Menge von threads, die ich
2
Antworten
Ich habe läuft nutch-crawling-Befehle für die vergangen 3 Wochen und jetzt bekomme ich die folgende Fehlermeldung, wenn ich versuche zu starten nutch-Befehl Java HotSpot(TM) 64-Bit Server VM warning: nicht genügend Speicherplatz für shared-memory-Datei: /tmp/hsperfdata_user/27050 Versuchen Sie es
7
Antworten
Arbeite ich an einem crawler und müssen genau verstehen, was gemeint ist mit "link-Tiefe". Nehmen nutch zum Beispiel: http://wiki.apache.org/nutch/NutchTutorial Tiefe an, die link-Tiefe von der root-Seite werden sollte gecrawlt. So, sagen, ich habe die domain www.domain.com und
1
Antworten
ich versuche zu laufen Nutch mit Cygwin. Ich habe Probleme beim setzen der JAVA_HOME. $ export JAVA_HOME='/cygdrive/f/program files/java/jdk1.6.0_21' Wenn ich nutch-Befehl $ bin/nutch crawl bekomme ich cygpath: can't convert empty path bin/nutch: line 268: /cygdrive/f/program: No such
3
Antworten
Sagen wir, ich will, um aggregierte Informationen in Bezug auf eine bestimmte Nische aus vielen Quellen (könnte sein, Reisen, Technik, oder was auch immer). Wie soll ich das tun? Haben ein spider/crawler, der crawlt das web für
3
Antworten
Bin ich in der Lage zu integrieren Apache Nutch crawler mit der Solr-Index-server? Edit: Einer unserer devs kam mit einer Lösung aus diesen posts Läuft Nutch und Solr Update für die Ausführung von Nutch und Solr Antwort
2
Antworten
Ich brauche, um Zugang zu einem lucene-index ( erstellt durch Crawlen mehrere Webseiten mit Nutch), aber es gibt die oben aufgeführten Fehler : java.io.FileNotFoundException: no segments* file found in org.apache.lucene.store.FSDirectory@/home/<path>: files: at org.apache.lucene.index.SegmentInfos$FindSegmentsFile.run(SegmentInfos.java:516) at org.apache.lucene.index.IndexReader.open(IndexReader.java:185) at org.apache.lucene.index.IndexReader.open(IndexReader.java:148)