Tag: web-crawler

Ein Web-crawler (auch bekannt als Web-spider) ist ein Computerprogramm, das durchsucht das World Wide Web in einer methodischen, automatisierte Weise oder in einer geordneten Weise. Andere Begriffe für Web-crawler sind Ameisen, automatische Indexer, bots, Web-Spider, Web-robots, oder – vor allem in der FOAF-community – Web-scutters.

Wie installieren und ausführen von Nutch in Windows 7 x64

Anzahl der Antworten 2 Antworten
Möchte ich laufen Nutch auf meinem Windows 7 x64. Ich habe Nutch-Versionen 1.5.1 und 2 von apache.spinellicreations.com/nutch/. Verwendet habe ich das tutorial auf wiki.apache.org/nutch/NutchTutorial. Aber ich Durcheinander in den zweiten Schritt und ich kann nicht überprüfen Sie

Erste Schritte mit Python: - Attribut-Fehler

Anzahl der Antworten 2 Antworten
Ich bin neu in python und gerade heruntergeladen es heute. Ich bin mit der Arbeit ein web-spider, also um es zu testen und sicherzustellen, dass alles funktioniert, ich habe einen Beispiel-code. Leider funktioniert es nicht und gibt

wie bauen web-crawler verwenden asp.net mvc3 und c#?

Anzahl der Antworten 1 Antworten
Ich brauchen, um zu bauen die kleine Suchmaschine wie Google verwenden ASP.NET MVC-3. Für diese hier habe ich auch zum erstellen der web-crawler, die füllen Sie die Daten für die Suchmaschine. In Zusammenfassung, die ich benötigen die

Scrapy - Wählen Sie link-text

Anzahl der Antworten 3 Antworten
Diese sollte einfach sein, aber ich bin stecken. <div class="paginationControl"> <a href="/en/overview/0-All_manufactures/0-All_models.html?page=2&amp;powerunit=2">Link Text 2</a> | <a href="/en/overview/0-All_manufactures/0-All_models.html?page=3&amp;powerunit=2">Link Text 3</a> | <a href="/en/overview/0-All_manufactures/0-All_models.html?page=4&amp;powerunit=2">Link Text 4</a> | <a href="/en/overview/0-All_manufactures/0-All_models.html?page=5&amp;powerunit=2">Link Text 5</a> | <!-- Next page link --> <a href="/en/overview/0-All_manufactures/0-All_models.html?page=2&amp;powerunit=2">Link

Wie zu verwenden Scrapy

Anzahl der Antworten 2 Antworten
Ich würde gerne wissen, wie kann ich einen crawler auf Basis Scrapy. Ich installierte das tool mit apt-get installieren, und ich habe versucht zu laufen, ein Beispiel: /usr/share/doc/scrapy/Beispiele/googledir/googledir$ scrapy Liste directory.google.com /usr/share/doc/scrapy/Beispiele/googledir/googledir$ scrapy crawl Ich hackte den

Web-crawler mit Hilfe von perl

Anzahl der Antworten 1 Antworten
Möchte ich die Entwicklung einer web-crawler, die beginnt, aus einer Ausgangs-URL und dann kriecht 100 html-Seiten, die es findet, aus der gleichen Domäne wie die Ausgangs-URL sowie hält eine Aufzeichnung der URLs Durchlaufen und dabei Duplikate zu

Ausschließen bots und spiders von einem View-counter in PHP

Anzahl der Antworten 4 Antworten
Ich gebaut habe, eine ziemlich einfache Anzeige-manager für eine website in PHP. Sage ich einfach, weil es ist nicht kompliziert wie Google oder Facebook ads oder sogar die meisten high-end-ad-Server. Nicht Zahlungen oder alles oder sogar auf

Scrapy BaseSpider: Wie funktioniert es?

Anzahl der Antworten 1 Antworten
Dies ist die BaseSpider Beispiel aus dem Scrapy-tutorial: from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from dmoz.items import DmozItem class DmozSpider(BaseSpider): domain_name = "dmoz.org" start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" ] def parse(self, response): hxs = HtmlXPathSelector(response)

Vorbei request limit in dem Crawlen einer Website

Anzahl der Antworten 4 Antworten
Arbeite ich an einem web-crawler, dass die Indizes der Seiten, die nicht indiziert werden sollen. Mein Erster Versuch: Ich schrieb eine c# - crawler, der geht durch jede Seite und lädt Sie herunter. Dies führte zu meiner

HTML-Snapshot für crawler - Verständnis, wie es funktioniert

Anzahl der Antworten 1 Antworten
bin ich beim Lesen dieses Artikel heute. Um ehrlich zu sein, ich bin wirklich interessed "2. Viel von Ihrem Inhalt wird erstellt, indem eine serverseitige Technologie wie PHP oder ASP.NET" Punkt. Möchte ich verstehen, wenn ich verstanden

Scrapy SgmlLinkExtractor Frage

Anzahl der Antworten 4 Antworten
Ich versuche, die SgmlLinkExtractor zu arbeiten. Dies ist die Signatur: SgmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), restrict_xpaths(), tags=('a', 'area'), attrs=('href'), canonicalize=True, unique=True, process_value=None) Habe ich nur allow=() So, ich geben Sie rules = (Rule(SgmlLinkExtractor(allow=("/aadler/", )), callback='parse'),) So, die erste

tools zum Crawlen beliebtes forum/bulletin board software

Anzahl der Antworten 1 Antworten
Habe ich angefangen zu schreiben, ein crawler zum Crawlen von vbulletin boards. Aber ich bin kein web-Programmierer (json api, die ich tun kann, aber das ist nicht wirklich web-crawling), und als solche weiß ich nicht, was der

Erstellen eines generischen scrapy spider

Anzahl der Antworten 5 Antworten
Meine Frage ist wirklich, wie das gleiche zu tun, wie in einer vorhergehenden Frage, aber in Scrapy 0.14. Mit einem Scrapy Spinne für mehrere websites Grundsätzlich habe ich GUI, Parameter wie domain, keywords, tag-Namen, etc. und ich

wie auf den link zu klicken mit python selenium?

Anzahl der Antworten 3 Antworten
Ich versuche zu einloggen in mein linkedin mit python selenium. Ich bin in der Lage, öffnen Sie meine homepage, aber nach, dass ich möchten, öffnen Sie den folgenden link vorhanden auf meiner homepage <a href="/profile/edit?trk=nav_responsive_sub_nav_edit_profile"> Edit Profile

beste Bibliothek zu tun, web-scraping

Anzahl der Antworten 13 Antworten
Ich würde gerne Daten aus verschiedenen Webseiten, wie z.B. Adressen von restaurants oder Termine von verschiedenen Veranstaltungen für einen bestimmten Ort und so weiter. Was ist die beste Bibliothek, die ich nutzen kann für die Extraktion dieser

Wie Sie kratzen Sie alle Inhalte von jedem link mit scrapy?

Anzahl der Antworten 2 Antworten
Ich bin neu mit scrapy ich möchte alle extrahieren Sie den Inhalt jedes werben von dieser website. Also ich habe Folgendes versucht: from scrapy.spiders import Spider from craigslist_sample.items import CraigslistSampleItem from scrapy.selector import Selector class MySpider(Spider): name

Eine alternative web-crawler Nutch

Anzahl der Antworten 5 Antworten
Ich versuche zu bauen, eine spezialisierte Suchmaschine Website, die Indizes eine begrenzte Anzahl von web-sites. Die Lösung, die ich kam mit: mit Nutch als der web-crawler, mit Solr als Suchmaschine, die front-end und die Website-Logik codiert ist

Wie Baue ich einen web-crawler, die Sie extrahieren können insbesondere Informationen, die Sie von einer Website?

Anzahl der Antworten 3 Antworten
So, ich bin versuchen zu bauen ein web-crawler, ich kann schalten Sie die überprüfung vor Ort und haben es ziemlich zuverlässig kratzen Nutzerbewertungen aus dem text. Das heißt, eher als der Bau einer Spachtel für sagen Amazon

Wie Reise-Suchmaschinen & Aggregatoren Ihre Quelle Daten?

Anzahl der Antworten 4 Antworten
Ich bin werfen, um ein paar Ideen für Reise-Suchmaschinen und ich Frage mich, wie diese Websites Ihre Quell-Daten. Tun Sie kratzen den ganzen Inhalt aus der airline-homepages? Das scheint eine enorme Aufgabe, angesichts der Anzahl von airlines

Wie man HTML-element-Koordinaten mit C#?

Anzahl der Antworten 2 Antworten
Ich bin Planung zu entwickeln, web-crawler, die extrahiert Koordinaten der html-Elemente von web-Seiten. Ich habe herausgefunden, dass es möglich ist, um html-element-Koordinaten durch Verwendung von "mshtml" - Montage. Jetzt ich würde gerne wissen, ob es möglich ist,

Wie befolgen Sie alle links in CasperJS?

Anzahl der Antworten 2 Antworten
Ich habe Probleme, auf alle JavaScript-basierten Verknüpfungen, die in einem DOM und speichern der Ausgabe. Die links haben die form <a id="html" href="javascript:void(0);" onclick="goToHtml();">HTML</a> folgende code funktioniert Super: var casper = require('casper').create(); var fs = require('fs'); var

Wie man casper.js http.status-code?

Anzahl der Antworten 4 Antworten
Habe ich einfach folgenden code: var casper = require("casper").create({ }), utils = require('utils'), http = require('http'), fs = require('fs'); casper.start(); casper.thenOpen('http://www.yahoo.com/', function() { casper.capture('test.png'); }); casper.on('http.status.404', function(resource) { this.echo('wait, this url is 404: ' + resource.url); });

How to crawl mit php Goutte und Saufen, wenn Daten geladen wird, indem Javascript?

Anzahl der Antworten 4 Antworten
Viele Male beim Crawlen laufen wir in Probleme, wo der Inhalt, der dargestellt wird, auf der Seite generiert, die mit Javascript und daher scrapy nicht in der Lage ist zu krabbeln, die für Sie (zB. ajax-requests, jQuery)

Gibt es eine Möglichkeit, kriechen alle facebook fan-Seiten?

Anzahl der Antworten 3 Antworten
Gibt es eine Möglichkeit, kriechen alle facebook fan-Seiten und sammeln Sie ein paar Informationen? wie zum Beispiel crawling-facebook fan-Seiten und speichern Sie Ihre Namen, oder wie viele fans, etc? Oder zumindest hast du einen Tipp, wie könnte

Greifen tweets mit PHP

Anzahl der Antworten 1 Antworten
Ich versuche zu greifen, tweets aus Twitter. Was ich habe, ist eine Liste von Benutzern, die würde ich gerne packen Ihre tweets aus und speichern Sie diese in meine Datenbank. Ich würde gerne wissen, ob ich werde

Web-Crawler in Python für Yelp

Anzahl der Antworten 2 Antworten
Ich habe versucht zu schreiben, ein crawler ist zum jaulen. Ich möchte die links der Anbieter auf dieser Seite zur Verfügung, ich weiß, es ist gegeben a href=" aber das array zurückgeben ist immer leer Bitte um

Wie zu finden, die alle element mit dem PHP Simple HTML DOM-Parser?

Anzahl der Antworten 3 Antworten
//Find all element has attribute id $ret = $html->find('*[id]'); Dies ist ein Beispiel für die Suche nach alle Elemente, die das Attribut id. Gibt es eine Möglichkeit zu finden, alle Elemente. Ich versuche auf diese Weise, aber

Nutch Keine Agenten unter 'http.agent.name"

Anzahl der Antworten 2 Antworten
Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property. at org.apache.nutch.fetcher.Fetcher.checkConfiguration(Fetcher.java:1166) at org.apache.nutch.fetcher.Fetcher.fetch(Fetcher.java:1068) at org.apache.nutch.crawl.Crawl.run(Crawl.java:135) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) at org.apache.nutch.crawl.Crawl.main(Crawl.java:54) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:616) at org.apache.hadoop.util.RunJar.main(RunJar.java:156) Jedes mal, wenn ich

wie bekannt web-crawler und blockieren von Spam und schädlichen Roboter aus Scannen asp.net website

Anzahl der Antworten 4 Antworten
Wie kann ich bei der Konfiguration meiner Website zu ermöglichen, kriechen aus bekannten Roboter wie google, bing, yahoo, alexa, etc. und halt andere schädliche Spammer, Roboter sollte ich blockieren bestimmte IP? bitte diskutieren Sie vor -, Nachteile

Hat Facebook crawler derzeit interpretieren javascript vor dem Parsen des DOM?

Anzahl der Antworten 2 Antworten
Folgende link scheint zu sagen, dass es nicht: Wie funktioniert Facebook Sharer wählen Sie Bilder und andere Metadaten beim teilen meiner URL? Aber ich wollte wissen, ob es noch der Fall beim aktuellen Datum... (Die Dokumentation auf

Selen finden Sie alle Elemente von xpath

Anzahl der Antworten 1 Antworten
Ich verwendet, Selen Schrott, ein scrolling-website und führte Sie den code unten import requests from bs4 import BeautifulSoup import csv from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait import unittest from selenium.webdriver.common.by import By from selenium.webdriver.support import

Ist AJAX Wirklich SEO-Freundlich?

Anzahl der Antworten 6 Antworten
Jetzt mit Web 2.0 der trend ist AJAX, es gibt viele bestehende frameworks auf dem Markt, die Förderung AJAX, aber ist AJAX wirklich SEO-freundlich? Ich ging zu entlassen, diese Frage, aber die zusätzlichen Fragezeichen im Titel und

Nutch regex-urlfilter-syntax

Anzahl der Antworten 1 Antworten
Ich bin mit Nutch v. 1.6 und es ist das Crawlen bestimmter Seiten korrekt, aber ich kann nicht scheinen, um die korrekte syntax für die Datei NUTCH_ROOT/conf/regex-urlfilter.txt. Die Seite, die ich durchforsten möchten, hat die URL ähnlich

Symfony2 Funktionale Tests - Klicken Sie auf Elemente mit jQuery-Interaktion

Anzahl der Antworten 3 Antworten
Ich bin dabei einige funktionale tests für eine Anwendung gemacht, mit Symfony2 (2.1) und ich bin stecken mit einem problem. Habe ich einige Teile der website zu laden, wenn der Benutzer auf einen link klickt oder einem

Gute Quelle für Crawler / Spider IP-Adressen

Anzahl der Antworten 5 Antworten
Wo finde ich eine umfassende Liste der Crawler oder Spider IP-Adresse. Ich brauche die IPs von google, yahoo, microsoft und anderen Suchmaschinen, die regelmäßig durchforsten meiner Seiten. Möchte ich nicht deaktivieren, Sie so zu halten robots.txt Datei

Durchlaufen DirectoryEntry oder jede Objekt-Hierarchie in C#

Anzahl der Antworten 5 Antworten
Ich bin derzeit am entwickeln einer Anwendung, die das System verwenden.DirectoryServices-namespace erstellen Sie ein DirectoryEntry-Objekt und eine Schleife durch die gesamte Hierarchie, um Informationen zu sammeln. Weiß ich nicht Anzahl der untergeordneten Einträge für die einzelnen DirectoryEntry-Objekt

Scrapy crawl alle sitemap links

Anzahl der Antworten 2 Antworten
Will ich kriechen alle er-links in der sitemap.xml von einem festen Standort. Habe ich stieß Scrapy ist SitemapSpider. Bisher habe ich extrahiert alle urls in der sitemap. Jetzt will ich kriechen durch jeden link der sitemap. Jede

Wie zu verwenden Goutte

Anzahl der Antworten 2 Antworten
Problem: Kann nicht ganz verstehen, die Goutte web scraper. Anfrage: Kann mir bitte jemand helfen zu verstehen, oder geben Sie code, um mir zu helfen besser zu verstehen, wie zu verwenden Goutte web-scraper? Ich habe gelesen, über

Parsen von HTML-Inhalten in VBA

Anzahl der Antworten 2 Antworten
Ich habe eine Frage in Bezug auf HTML-parsing. Ich habe eine website mit einigen Produkten und ich fangen möchte den text innerhalb der Seite in meiner aktuellen Tabelle. Diese Tabelle ist ziemlich groß, enthält aber ItemNbr in

Rotierende Proxies für web-scraping

Anzahl der Antworten 3 Antworten
Habe ich eine python-web-crawler, und ich will zur Verteilung der download-Anfragen unter vielen verschiedenen proxy-Servern, läuft wahrscheinlich squid (obwohl ich bin offen für alternativen). Zum Beispiel, könnte es die Arbeit im round-robin-Mode, wo request1 geht an proxy1,

warum facebook überschwemmungen ist meine Website?

Anzahl der Antworten 1 Antworten
Jede Stunde und eine Hälfte Im erhalte eine Flut von Anfragen aus http://www.facebook.com/externalhit_uatext.php. Ich wissen, welche Thesen Anfragen bedeuten sollte, aber dieses Verhalten ist sehr sonderbar. Regelmäßig (aproximatedly alle 1,5 Stunden), Im Dutzend dieser Anfragen pro minute

HtmlAgilityPack HtmlWeb.Last Rücksendung von leeren Dokument

Anzahl der Antworten 1 Antworten
Ich habe mit HtmlAgilityPack in den letzten 2 Monaten in ein Web-Crawler Anwendung ohne Probleme laden einer Webseite. Wenn ich jetzt versuche zu laden, auf dieses spezielle Webseite, das Dokument OuterHtml leer ist, also dieser test fehlschlägt,

Machen Sie ein Web-Crawler in php

Anzahl der Antworten 3 Antworten
Will ich bauen ein web-crawler mit PHP, aber ich bin immer noch verwirrt darüber. Ich habe nicht gefunden, eine Anleitung, die kann arbeiten. Kann mir jemand helfen, wie man einen crawler mit PHP? Sind Sie gerade auf

Geben Sie mehr Speicherplatz für meine jar-Datei

Anzahl der Antworten 3 Antworten
Ich habe einen multithreaded crawler. In diesem Programm, wenn ich laden Sie eine Menge von Samen, bekomme ich eine Fehlermeldung. Ich sah die java.lang.OutOfMemoryError und dachte, vielleicht ist der Speicher nicht genug. Ich habe versucht mit der

online-tool und wird zum extrahieren und crawl-Daten von der website mit der URL-Liste in excel

Anzahl der Antworten 3 Antworten
Gibt es eine online tool (ohne Installation von software im computer) zum extrahieren von Daten von der website mit einer Liste von URL. Ich möchte zum extrahieren von Daten aus www.indiabix.com mit der coulmns wie : 1)

wie zu beheben HTTP Fehler beim abrufen der URL. Status=500, die in java beim Crawlen?

Anzahl der Antworten 1 Antworten
Ich versuche zu krabbeln werden die Bewertungen des Benutzers der Kino-Filme auf imdb von der review-Seite: (Anzahl der Filme in meiner Datenbank ist mit rund 600.000). Ich verwendet jsoup Parsen Seiten wie folgt: (sorry, ich habe nicht

PHP - cannot change max_execution_time in xampp

Anzahl der Antworten 11 Antworten
Habe ich versucht, alles zu ändern max_execution_time einer php-crawler-Skript, so dass es ausführen kann, eine unendliche Menge an Zeit. Habe ich geändert, das php.ini-Datei-Einstellung max_execution_time zu 0 oder 100000000 aber keine Veränderung Ich habe auch versucht eine

TypeError: can ' T verwenden Sie ein string-Muster auf einem bytes-Objekt wie in re.findall()

Anzahl der Antworten 2 Antworten
Ich versuche zu lernen, wie man automatisch fetch urls aus einer Seite. Im folgenden code versuche ich den Titel der Webseite: import urllib.request import re url = "http://www.google.com" regex = r'<title>(,+?)</title>' pattern = re.compile(regex) with urllib.request.urlopen(url) as

Wie kann ich sicher überprüfen, ist der Knoten leer ist oder nicht? (Symfony 2 Crawler)

Anzahl der Antworten 3 Antworten
Wenn ich versuche, einige nicht vorhandene Inhalte aus der Seite, die ich fangen diesen Fehler: The current node list is empty. 500 Internal Server Error - InvalidArgumentException Wie kann ich sicher überprüfen, existiert diese Inhalte oder nicht?

Versuchen, um Scrapy in ein Projekt zu laufen, Kriechen Befehl

Anzahl der Antworten 2 Antworten
Ich bin neu in Python und Scrapy und ich bin zu Fuß durch die Scrapy tutorial. Ich habe in der Lage zu erstellen, die mein Projekt mit DOS-Oberfläche und der Eingabe: scrapy startproject dmoz Tutorial später bezieht