Tag: web-crawler
Ein Web-crawler (auch bekannt als Web-spider) ist ein Computerprogramm, das durchsucht das World Wide Web in einer methodischen, automatisierte Weise oder in einer geordneten Weise. Andere Begriffe für Web-crawler sind Ameisen, automatische Indexer, bots, Web-Spider, Web-robots, oder – vor allem in der FOAF-community – Web-scutters.
2
Antworten
Möchte ich laufen Nutch auf meinem Windows 7 x64. Ich habe Nutch-Versionen 1.5.1 und 2 von apache.spinellicreations.com/nutch/. Verwendet habe ich das tutorial auf wiki.apache.org/nutch/NutchTutorial. Aber ich Durcheinander in den zweiten Schritt und ich kann nicht überprüfen Sie
2
Antworten
Ich bin neu in python und gerade heruntergeladen es heute. Ich bin mit der Arbeit ein web-spider, also um es zu testen und sicherzustellen, dass alles funktioniert, ich habe einen Beispiel-code. Leider funktioniert es nicht und gibt
1
Antworten
Ich brauchen, um zu bauen die kleine Suchmaschine wie Google verwenden ASP.NET MVC-3. Für diese hier habe ich auch zum erstellen der web-crawler, die füllen Sie die Daten für die Suchmaschine. In Zusammenfassung, die ich benötigen die
3
Antworten
Diese sollte einfach sein, aber ich bin stecken. <div class="paginationControl"> <a href="/en/overview/0-All_manufactures/0-All_models.html?page=2&powerunit=2">Link Text 2</a> | <a href="/en/overview/0-All_manufactures/0-All_models.html?page=3&powerunit=2">Link Text 3</a> | <a href="/en/overview/0-All_manufactures/0-All_models.html?page=4&powerunit=2">Link Text 4</a> | <a href="/en/overview/0-All_manufactures/0-All_models.html?page=5&powerunit=2">Link Text 5</a> | <!-- Next page link --> <a href="/en/overview/0-All_manufactures/0-All_models.html?page=2&powerunit=2">Link
2
Antworten
Ich würde gerne wissen, wie kann ich einen crawler auf Basis Scrapy. Ich installierte das tool mit apt-get installieren, und ich habe versucht zu laufen, ein Beispiel: /usr/share/doc/scrapy/Beispiele/googledir/googledir$ scrapy Liste directory.google.com /usr/share/doc/scrapy/Beispiele/googledir/googledir$ scrapy crawl Ich hackte den
1
Antworten
Möchte ich die Entwicklung einer web-crawler, die beginnt, aus einer Ausgangs-URL und dann kriecht 100 html-Seiten, die es findet, aus der gleichen Domäne wie die Ausgangs-URL sowie hält eine Aufzeichnung der URLs Durchlaufen und dabei Duplikate zu
4
Antworten
Ich gebaut habe, eine ziemlich einfache Anzeige-manager für eine website in PHP. Sage ich einfach, weil es ist nicht kompliziert wie Google oder Facebook ads oder sogar die meisten high-end-ad-Server. Nicht Zahlungen oder alles oder sogar auf
1
Antworten
Dies ist die BaseSpider Beispiel aus dem Scrapy-tutorial: from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from dmoz.items import DmozItem class DmozSpider(BaseSpider): domain_name = "dmoz.org" start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" ] def parse(self, response): hxs = HtmlXPathSelector(response)
4
Antworten
Arbeite ich an einem web-crawler, dass die Indizes der Seiten, die nicht indiziert werden sollen. Mein Erster Versuch: Ich schrieb eine c# - crawler, der geht durch jede Seite und lädt Sie herunter. Dies führte zu meiner
1
Antworten
bin ich beim Lesen dieses Artikel heute. Um ehrlich zu sein, ich bin wirklich interessed "2. Viel von Ihrem Inhalt wird erstellt, indem eine serverseitige Technologie wie PHP oder ASP.NET" Punkt. Möchte ich verstehen, wenn ich verstanden
4
Antworten
Ich versuche, die SgmlLinkExtractor zu arbeiten. Dies ist die Signatur: SgmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), restrict_xpaths(), tags=('a', 'area'), attrs=('href'), canonicalize=True, unique=True, process_value=None) Habe ich nur allow=() So, ich geben Sie rules = (Rule(SgmlLinkExtractor(allow=("/aadler/", )), callback='parse'),) So, die erste
1
Antworten
Habe ich angefangen zu schreiben, ein crawler zum Crawlen von vbulletin boards. Aber ich bin kein web-Programmierer (json api, die ich tun kann, aber das ist nicht wirklich web-crawling), und als solche weiß ich nicht, was der
5
Antworten
Meine Frage ist wirklich, wie das gleiche zu tun, wie in einer vorhergehenden Frage, aber in Scrapy 0.14. Mit einem Scrapy Spinne für mehrere websites Grundsätzlich habe ich GUI, Parameter wie domain, keywords, tag-Namen, etc. und ich
3
Antworten
Ich versuche zu einloggen in mein linkedin mit python selenium. Ich bin in der Lage, öffnen Sie meine homepage, aber nach, dass ich möchten, öffnen Sie den folgenden link vorhanden auf meiner homepage <a href="/profile/edit?trk=nav_responsive_sub_nav_edit_profile"> Edit Profile
13
Antworten
Ich würde gerne Daten aus verschiedenen Webseiten, wie z.B. Adressen von restaurants oder Termine von verschiedenen Veranstaltungen für einen bestimmten Ort und so weiter. Was ist die beste Bibliothek, die ich nutzen kann für die Extraktion dieser
2
Antworten
Ich bin neu mit scrapy ich möchte alle extrahieren Sie den Inhalt jedes werben von dieser website. Also ich habe Folgendes versucht: from scrapy.spiders import Spider from craigslist_sample.items import CraigslistSampleItem from scrapy.selector import Selector class MySpider(Spider): name
5
Antworten
Ich versuche zu bauen, eine spezialisierte Suchmaschine Website, die Indizes eine begrenzte Anzahl von web-sites. Die Lösung, die ich kam mit: mit Nutch als der web-crawler, mit Solr als Suchmaschine, die front-end und die Website-Logik codiert ist
3
Antworten
So, ich bin versuchen zu bauen ein web-crawler, ich kann schalten Sie die überprüfung vor Ort und haben es ziemlich zuverlässig kratzen Nutzerbewertungen aus dem text. Das heißt, eher als der Bau einer Spachtel für sagen Amazon
4
Antworten
Ich bin werfen, um ein paar Ideen für Reise-Suchmaschinen und ich Frage mich, wie diese Websites Ihre Quell-Daten. Tun Sie kratzen den ganzen Inhalt aus der airline-homepages? Das scheint eine enorme Aufgabe, angesichts der Anzahl von airlines
2
Antworten
Ich bin Planung zu entwickeln, web-crawler, die extrahiert Koordinaten der html-Elemente von web-Seiten. Ich habe herausgefunden, dass es möglich ist, um html-element-Koordinaten durch Verwendung von "mshtml" - Montage. Jetzt ich würde gerne wissen, ob es möglich ist,
2
Antworten
Ich habe Probleme, auf alle JavaScript-basierten Verknüpfungen, die in einem DOM und speichern der Ausgabe. Die links haben die form <a id="html" href="javascript:void(0);" onclick="goToHtml();">HTML</a> folgende code funktioniert Super: var casper = require('casper').create(); var fs = require('fs'); var
4
Antworten
Habe ich einfach folgenden code: var casper = require("casper").create({ }), utils = require('utils'), http = require('http'), fs = require('fs'); casper.start(); casper.thenOpen('http://www.yahoo.com/', function() { casper.capture('test.png'); }); casper.on('http.status.404', function(resource) { this.echo('wait, this url is 404: ' + resource.url); });
4
Antworten
Viele Male beim Crawlen laufen wir in Probleme, wo der Inhalt, der dargestellt wird, auf der Seite generiert, die mit Javascript und daher scrapy nicht in der Lage ist zu krabbeln, die für Sie (zB. ajax-requests, jQuery)
3
Antworten
Gibt es eine Möglichkeit, kriechen alle facebook fan-Seiten und sammeln Sie ein paar Informationen? wie zum Beispiel crawling-facebook fan-Seiten und speichern Sie Ihre Namen, oder wie viele fans, etc? Oder zumindest hast du einen Tipp, wie könnte
1
Antworten
Ich versuche zu greifen, tweets aus Twitter. Was ich habe, ist eine Liste von Benutzern, die würde ich gerne packen Ihre tweets aus und speichern Sie diese in meine Datenbank. Ich würde gerne wissen, ob ich werde
2
Antworten
Ich habe versucht zu schreiben, ein crawler ist zum jaulen. Ich möchte die links der Anbieter auf dieser Seite zur Verfügung, ich weiß, es ist gegeben a href=" aber das array zurückgeben ist immer leer Bitte um
3
Antworten
//Find all element has attribute id $ret = $html->find('*[id]'); Dies ist ein Beispiel für die Suche nach alle Elemente, die das Attribut id. Gibt es eine Möglichkeit zu finden, alle Elemente. Ich versuche auf diese Weise, aber
2
Antworten
Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property. at org.apache.nutch.fetcher.Fetcher.checkConfiguration(Fetcher.java:1166) at org.apache.nutch.fetcher.Fetcher.fetch(Fetcher.java:1068) at org.apache.nutch.crawl.Crawl.run(Crawl.java:135) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) at org.apache.nutch.crawl.Crawl.main(Crawl.java:54) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:616) at org.apache.hadoop.util.RunJar.main(RunJar.java:156) Jedes mal, wenn ich
4
Antworten
Wie kann ich bei der Konfiguration meiner Website zu ermöglichen, kriechen aus bekannten Roboter wie google, bing, yahoo, alexa, etc. und halt andere schädliche Spammer, Roboter sollte ich blockieren bestimmte IP? bitte diskutieren Sie vor -, Nachteile
2
Antworten
Folgende link scheint zu sagen, dass es nicht: Wie funktioniert Facebook Sharer wählen Sie Bilder und andere Metadaten beim teilen meiner URL? Aber ich wollte wissen, ob es noch der Fall beim aktuellen Datum... (Die Dokumentation auf
1
Antworten
Ich verwendet, Selen Schrott, ein scrolling-website und führte Sie den code unten import requests from bs4 import BeautifulSoup import csv from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait import unittest from selenium.webdriver.common.by import By from selenium.webdriver.support import
6
Antworten
Jetzt mit Web 2.0 der trend ist AJAX, es gibt viele bestehende frameworks auf dem Markt, die Förderung AJAX, aber ist AJAX wirklich SEO-freundlich? Ich ging zu entlassen, diese Frage, aber die zusätzlichen Fragezeichen im Titel und
1
Antworten
Ich bin mit Nutch v. 1.6 und es ist das Crawlen bestimmter Seiten korrekt, aber ich kann nicht scheinen, um die korrekte syntax für die Datei NUTCH_ROOT/conf/regex-urlfilter.txt. Die Seite, die ich durchforsten möchten, hat die URL ähnlich
3
Antworten
Ich bin dabei einige funktionale tests für eine Anwendung gemacht, mit Symfony2 (2.1) und ich bin stecken mit einem problem. Habe ich einige Teile der website zu laden, wenn der Benutzer auf einen link klickt oder einem
5
Antworten
Wo finde ich eine umfassende Liste der Crawler oder Spider IP-Adresse. Ich brauche die IPs von google, yahoo, microsoft und anderen Suchmaschinen, die regelmäßig durchforsten meiner Seiten. Möchte ich nicht deaktivieren, Sie so zu halten robots.txt Datei
5
Antworten
Ich bin derzeit am entwickeln einer Anwendung, die das System verwenden.DirectoryServices-namespace erstellen Sie ein DirectoryEntry-Objekt und eine Schleife durch die gesamte Hierarchie, um Informationen zu sammeln. Weiß ich nicht Anzahl der untergeordneten Einträge für die einzelnen DirectoryEntry-Objekt
2
Antworten
Will ich kriechen alle er-links in der sitemap.xml von einem festen Standort. Habe ich stieß Scrapy ist SitemapSpider. Bisher habe ich extrahiert alle urls in der sitemap. Jetzt will ich kriechen durch jeden link der sitemap. Jede
2
Antworten
Problem: Kann nicht ganz verstehen, die Goutte web scraper. Anfrage: Kann mir bitte jemand helfen zu verstehen, oder geben Sie code, um mir zu helfen besser zu verstehen, wie zu verwenden Goutte web-scraper? Ich habe gelesen, über
2
Antworten
Ich habe eine Frage in Bezug auf HTML-parsing. Ich habe eine website mit einigen Produkten und ich fangen möchte den text innerhalb der Seite in meiner aktuellen Tabelle. Diese Tabelle ist ziemlich groß, enthält aber ItemNbr in
3
Antworten
Habe ich eine python-web-crawler, und ich will zur Verteilung der download-Anfragen unter vielen verschiedenen proxy-Servern, läuft wahrscheinlich squid (obwohl ich bin offen für alternativen). Zum Beispiel, könnte es die Arbeit im round-robin-Mode, wo request1 geht an proxy1,
1
Antworten
Jede Stunde und eine Hälfte Im erhalte eine Flut von Anfragen aus http://www.facebook.com/externalhit_uatext.php. Ich wissen, welche Thesen Anfragen bedeuten sollte, aber dieses Verhalten ist sehr sonderbar. Regelmäßig (aproximatedly alle 1,5 Stunden), Im Dutzend dieser Anfragen pro minute
1
Antworten
Ich habe mit HtmlAgilityPack in den letzten 2 Monaten in ein Web-Crawler Anwendung ohne Probleme laden einer Webseite. Wenn ich jetzt versuche zu laden, auf dieses spezielle Webseite, das Dokument OuterHtml leer ist, also dieser test fehlschlägt,
3
Antworten
Will ich bauen ein web-crawler mit PHP, aber ich bin immer noch verwirrt darüber. Ich habe nicht gefunden, eine Anleitung, die kann arbeiten. Kann mir jemand helfen, wie man einen crawler mit PHP? Sind Sie gerade auf
3
Antworten
Ich habe einen multithreaded crawler. In diesem Programm, wenn ich laden Sie eine Menge von Samen, bekomme ich eine Fehlermeldung. Ich sah die java.lang.OutOfMemoryError und dachte, vielleicht ist der Speicher nicht genug. Ich habe versucht mit der
3
Antworten
Gibt es eine online tool (ohne Installation von software im computer) zum extrahieren von Daten von der website mit einer Liste von URL. Ich möchte zum extrahieren von Daten aus www.indiabix.com mit der coulmns wie : 1)
1
Antworten
Ich versuche zu krabbeln werden die Bewertungen des Benutzers der Kino-Filme auf imdb von der review-Seite: (Anzahl der Filme in meiner Datenbank ist mit rund 600.000). Ich verwendet jsoup Parsen Seiten wie folgt: (sorry, ich habe nicht
11
Antworten
Habe ich versucht, alles zu ändern max_execution_time einer php-crawler-Skript, so dass es ausführen kann, eine unendliche Menge an Zeit. Habe ich geändert, das php.ini-Datei-Einstellung max_execution_time zu 0 oder 100000000 aber keine Veränderung Ich habe auch versucht eine
2
Antworten
Ich versuche zu lernen, wie man automatisch fetch urls aus einer Seite. Im folgenden code versuche ich den Titel der Webseite: import urllib.request import re url = "http://www.google.com" regex = r'<title>(,+?)</title>' pattern = re.compile(regex) with urllib.request.urlopen(url) as
3
Antworten
Wenn ich versuche, einige nicht vorhandene Inhalte aus der Seite, die ich fangen diesen Fehler: The current node list is empty. 500 Internal Server Error - InvalidArgumentException Wie kann ich sicher überprüfen, existiert diese Inhalte oder nicht?
2
Antworten
Ich bin neu in Python und Scrapy und ich bin zu Fuß durch die Scrapy tutorial. Ich habe in der Lage zu erstellen, die mein Projekt mit DOS-Oberfläche und der Eingabe: scrapy startproject dmoz Tutorial später bezieht