Tag: screen-scraping

Screen-scraping, auch bekannt als web-scraping oder data-scraping, ist eine software Technik, die verwendet wird, zu sammeln und zu analysieren, die Informationen von user interfaces. Wenn Ihre Frage ist speziell über scraping von websites oder web-APIs, nutzen Sie bitte die [web-scraping] – tag statt.

Selen: so wählen Sie " N-Taste mit der gleichen Klasse Namen

Anzahl der Antworten 1 Antworten
Ich versuche 3. wählen Sie die Schaltfläche mit der css-Klasse "btnProceed" <input type="button" class="btnProceed" value=" " onclick="SecuritySubmit(false,'https://somewebsite.com/key=xxyyzz');return false;"> Mein code ist wie folgt: WebElement query_enquirymode = driver.findElement(By.className("btnProceed")); query_enquirymode.click(); Kann ich nur wählen Sie das 1. element mit

Kratzen HTML-Tabellen aus einer bestimmten URL in das CSV

Anzahl der Antworten 2 Antworten
Ich Suche ein tool, dass kann ausgeführt werden auf der Kommandozeile wie folgt: tablescrape 'http://someURL.foo.com' [n] Wenn n ist nicht angegeben und es gibt mehr als eine HTML-Tabelle auf der Seite, es sollte zusammenfassen (Kopfzeile, Anzahl der

Richtige Zeichenkodierung anzeigen "&acirc;&#128;&#157;"?

Anzahl der Antworten 2 Antworten
Ich bin mit einigen fiesen character-encoding-Probleme, die ich einfach nicht herausfinden können. Im Grunde genommen bin ich screen scraping einige HTML von einer Website mit PHP, dann läuft es über das PHP-DOMDocument-Objekt zu ändern, einige URL '

HTML-Agility-Pack oder HTML Screen Scraping-Bibliotheken für Java, Ruby, Python?

Anzahl der Antworten 2 Antworten
Fand ich die HTML-Agility-Pack nützlich und einfach zu verwenden für screen scraping web-sites. Was ist das äquivalent Bibliothek für HTML screen scraping in Java, Ruby, Python? InformationsquelleAutor Sajee | 2009-06-29

Kann eine cURL-basierten HTTP-Anfrage imitieren eine browser-basierte Antrag vollständig?

Anzahl der Antworten 2 Antworten
Dies ist eine zweiteilige Frage. F1: Können cURL-basierten request-100% imitieren eine browser-basierte Anfrage? f2: Wenn ja, was Sie alle Optionen festgelegt werden sollten. Wenn nicht, welche zusätzliche macht der browser, dass keine Biene imitiert mit cURL? Ich

Das automatische herunterladen von Dateien von einer bestimmten website

Anzahl der Antworten 3 Antworten
Ich bin ein sehr neuer Programmierer.. Eine website bietet eine Menge von zip-Dateien, die ich brauchte. Es wird aktualisiert/neu aufgespielt zip-Dateien wöchentlich. Was ich tun müssen, ist schreiben Sie ein Programm/Skript zu tun, automatischer Download von der

Kratzen eine dynamische website

Anzahl der Antworten 9 Antworten
Was ist die beste Methode, um kratzen eine dynamische website, wo die meisten Inhalte werden durch das, was erscheint, um ajax-requests? Ich habe Vorherige Erfahrung mit einem Mechanisieren, BeautifulSoup, und python-combo, aber ich bin für etwas neues.

Schienen was ist die beste Juwel kratzen websites?

Anzahl der Antworten 2 Antworten
Was ist die beste Juwel (Bildschirm) kratzen Webseiten, die ein Kennwort geschützt ist? InformationsquelleAutor Rails beginner | 2011-02-18

Wie erfassen Sie die gesamte Webseite in iPhone safari?

Anzahl der Antworten 4 Antworten
Wie in Firefox (Desktop-version) kann ich mit Fireshot und in Android kann ich mit Dolphin Screen Cut Ich weiß schon, dass wir screendump mit wake+home dauert es nicht screencapture der gesamten Webseite einschließlich der Fläche unter den

Auszug-Adresse Informationen aus einer Web-Seite

Anzahl der Antworten 4 Antworten
Muss ich an eine web-Seite und entpacken Sie die Adressinformationen von der Seite. Einige sind einfacher als andere. Ich bin auf der Suche nach einem firefox-plugin, windows-app, oder VB.NET code, der mir helfen, dieses getan. Idealerweise würde

Ruby alternative zu Scrapy?

Anzahl der Antworten 2 Antworten
Was sind einige Ruby-basierte tools, die mir helfen können erreichen was ähnliches wie Scrapy tut für python? http://doc.scrapy.org/intro/overview.html Möchten Sie vielleicht nur geben, scrapy ein Schuss. Es scheint hervorragende Dokumentation und eine sehr freundliche API. Wenn Sie

Die Auswahl nur von Kind-Knoten mit Jsoup?

Anzahl der Antworten 3 Antworten
Derzeit arbeite ich mit einem <ul> element mit einer Menge first-level - <li> Elemente. Ich möchte, um diese Elemente, und nur diese Elemente. Allerdings, wenn ich Sie entweder mit Jsoup-Selektor oder getElementsByTag, es gibt auch <li> Elemente

Wie zu verwenden Goutte

Anzahl der Antworten 2 Antworten
Problem: Kann nicht ganz verstehen, die Goutte web scraper. Anfrage: Kann mir bitte jemand helfen zu verstehen, oder geben Sie code, um mir zu helfen besser zu verstehen, wie zu verwenden Goutte web-scraper? Ich habe gelesen, über

Rotierende Proxies für web-scraping

Anzahl der Antworten 3 Antworten
Habe ich eine python-web-crawler, und ich will zur Verteilung der download-Anfragen unter vielen verschiedenen proxy-Servern, läuft wahrscheinlich squid (obwohl ich bin offen für alternativen). Zum Beispiel, könnte es die Arbeit im round-robin-Mode, wo request1 geht an proxy1,

iMacros - Extrahieren Sie einen Teil text innerhalb eines TD-Tags

Anzahl der Antworten 1 Antworten
Gehen Sie bitte auf den link http://www.networksolutions.com/whois-search/reedandthomas.com Ich extrahieren möchten nur den unteren Teil des Textes: Administrative Contact: Chilcoat, Dan [email protected] Reed & Thomas Electrical Contractors, Inc 621 Hanover Pike Hampstead, Maryland 21074 United States (410) 239-9680

Greifen jedem frame eine HTML5-canvas

Anzahl der Antworten 5 Antworten
Diese palette Zyklus Bilder sind atemberaubend: http://www.effectgames.com/demos/canvascycle/?sound=0 Ich würde gerne einige (oder alle) von diesen in desktop-Hintergründe. Könnte ich eine animierte gif-version, aber ich habe keine Ahnung, wie man das von der Leinwand "animation". Ist dort nichts

Python Scraping JavaScript mit Selen und Schöne Suppe

Anzahl der Antworten 1 Antworten
Ich versuche zu kratzen ein JavaScript-aktiviert die Seite mit BS und Selen. Ich habe den folgenden code so weit. Es immer noch nicht irgendwie erkennen, die JavaScript (und gibt einen null-Wert). In diesem Fall bin ich versucht

PDF-Daten und Tabelle Schaben zu Excel

Anzahl der Antworten 1 Antworten
Ich versuche, herauszufinden, eine gute Möglichkeit zur Steigerung der Produktivität von meinen Daten Eintrag job. Was ich Suche, nur zu kommen mit einer Art und Weise zu kratzen, Daten aus einer PDF-Datei und die Eingabe in Excel.

Immer Fehler "Der Remoteserver hat einen Fehler zurückgegeben: (403) Forbidden", wenn screen scraping mit HttpWebRequest.GetResponse()

Anzahl der Antworten 2 Antworten
Wir haben ein tool, das prüft, ob eine angegebene URL ist eine live-URL. Wenn eine angegebene url ist live ein anderer Teil unserer software kann der Bildschirm Schrott, den Inhalt von ihm. Dies ist mein code für

Selen klicken Sie auf Koordinaten nicht klicken, wo erwartet

Anzahl der Antworten 2 Antworten
Muss ich screen scrape einer Webseite mit ActiveX-Steuerelemente für die navigation. Dies ist nicht für den ui-Test-Zwecke, die für Daten-downloads von einem legacy-Anwendung. Das Problem, das ich habe, ist die top-navigation ist vollständig ActiveX mit javascript unmöglich

Nokogiri: wie finde ich einen div per id und sehen Sie, was text, den es enthält?

Anzahl der Antworten 2 Antworten
Ich gerade angefangen mit Nokogiri an diesem morgen, und ich Frage mich, wie so führen Sie eine einfache Aufgabe: ich muss nur suchen, eine Webseite für ein div-Element wie diesem: <div id="verify" style="display:none"> site_verification_string </div> Ich will,

BeautifulSoup und ASP.NET/C#

Anzahl der Antworten 3 Antworten
Hat jemand integrierten BeautifulSoup mit ASP.NET/C# (evtl. mit IronPython oder anderweitig)? Gibt es eine BeautifulSoup alternative oder einen Anschluss, der funktioniert gut mit ASP.NET/C# Der Absicht, von der Planung bis zur Nutzung der Bibliothek zu extrahieren lesbar

BeautifulSoup get_text nicht alle strip-tags und JavaScript

Anzahl der Antworten 3 Antworten
Ich versuche, mit BeautifulSoup zu bekommen text von web-Seiten. Unten ist eine Skript, das ich geschrieben habe zu tun. Es nimmt zwei Argumente, Erstens ist die Eingabe von HTML-oder XML-Datei, die zweite Ausgabedatei. import sys from bs4

Übergeben Sie die Benutzer-agent durch webdriver in Selen

Anzahl der Antworten 2 Antworten
Arbeite ich an einer website, Schaben-Projekt mit Selen in Python. Wenn ich öffnen Sie die Startseite durch einen browser, es öffnet sich richtig. Aber, wenn ich versuche, öffnen Sie die Webseite, durch webdriver() an Selen, es öffnet

Wie konvertieren von HTML-Seite-text-im node.js?

Anzahl der Antworten 4 Antworten
Ich weiß, dies wurde gebeten vor, aber ich kann nicht finden, eine gute Antwort für node.js Brauche ich server-Seite zu extrahieren Sie den reinen text (keine tags, script, etc.) aus einer HTML-Seite, die abgerufen wird. Ich wissen,

Laden Sie alle Dateien eines bestimmten Typs aus einer Webseite mit wget

Anzahl der Antworten 2 Antworten
Folgendes hat nicht funktioniert. Ich weiß nicht, warum es nur halt in die Start-url, gehen Sie nicht in die links, um die Suche für die angegebene Datei-Typ. wget -r -Ein .pdf home_page_url Andere Weise rekursiv herunterladen alle

Kratzen und konvertieren website in HTML?

Anzahl der Antworten 3 Antworten
Ich nicht getan habe, diese in 3 oder 4 Jahren, aber ein Kunde möchte, dass ein downgrade Ihrer dynamischen website in statischem HTML. Gibt es Kostenlose tools gibt, um das Crawlen einer Domäne und generiert HTML-Dateien arbeiten,

Scrapy, Schaben Daten in ein Javascript

Anzahl der Antworten 2 Antworten
Ich bin mit scrapy - Bildschirm kratzen von Daten von einer website. Jedoch die Daten, die ich wollte war nicht im html-Code selbst, sondern von einem javascript. So, meine Frage ist: Wie man die Werte (text-Werte) von

Regex HTML-Extraktion C#

Anzahl der Antworten 5 Antworten
Ich habe gesucht und gesucht über Regex, aber ich kann nicht scheinen, etwas zu finden, dass wird mir erlauben, dies zu tun. Ich brauche, um das 12.32, 2,300, 4.644 M und 12,444.12 aus den folgenden strings in

Wie kann ich den Bildschirm kratzen mit Perl?

Anzahl der Antworten 10 Antworten
Muss ich einige Werte, die gespeichert sind, in eine Webseite, für die ich brauche zu kratzen, die website und das abrufen der Inhalte aus der Tabelle. Irgendwelche Ideen? InformationsquelleAutor |

Eine gute web-Daten-Extraktion - /screen-scraper-Programm?

Anzahl der Antworten 16 Antworten
Mich bannen zu müssen Produkt-Daten von einer Website auf einer regelmäßigen basis, und fragte sich, ob jeder weiß, der ein gutes software-Programm? Ich habe erprobt Mozenda aber es ist ein monatliches Abonnement und teuer auf lange Sicht.

Wie kann ich Lesen und analysieren den Inhalt einer Webseite in R

Anzahl der Antworten 3 Antworten
Möchte ich den Inhalt einer URL (. e.q., http://www.haaretz.com/) in R. Frage ich mich, wie ich es tun kann InformationsquelleAutor Mark | 2009-12-04

Rightmove-API und das kratzen von technischen und rechtlichen

Anzahl der Antworten 1 Antworten
Ich bin auf der Suche zum erstellen einer app mithilfe von property-Daten. Nestoria ist eine freie API und die Regeln der Nutzung und Zoopla eine API, die Sie registrieren. OnTheMarket und Rightmove haben die gleichen Nutzungsbedingungen, die

Die Interaktion mit web-Seiten, die in C#

Anzahl der Antworten 4 Antworten
Gibt es eine website, die erstellt wurde, mithilfe von ColdFusion (nicht sicher, ob dies wichtig ist oder nicht). Ich muss mit dieser Website interagieren. Die wichtigsten Dinge, die ich tun muss, navigieren Sie zu den verschiedenen Seiten

scrapy, wie legen Sie die referer-url

Anzahl der Antworten 4 Antworten
Ich brauche, um die referer-url, vor dem Schaben eine Website, die Website verwendet verwenden, die url-basierte Authentifizierung, so dass es nicht zulassen, mich anzumelden, wenn der referer ist nicht gültig. Könnte mir jemand sagen, wie das im

Was ist der beste Ansatz zum Parsen von XML/ "screen scraping" in iOS? UIWebview oder NSXMLParser?

Anzahl der Antworten 2 Antworten
Ich bin erstellen einer iOS-app, muss man einige Daten aus einer web-Seite. Meine erste aber war NSXMLParser initWithContentsOfURL: und Parsen der HTML mit den NSXMLParser delegieren. Jedoch dieser Ansatz scheint, wie es kann schnell schmerzhaft werden (wenn,

wie senden Sie das Formular mit jsoup

Anzahl der Antworten 1 Antworten
Möchte ich submit form von einer Webseite, die mehrere Formen. Ich möchte dieses Formular abgesendet haben unten im besonderen. <form action="realDisplay.asp" method="post" name="Search" onSubmit="return validate(this); return submitForm();" target="_blank"> <table width="98%" align="center" cellspacing="0" cellpadding="0" border="1" bordercolor="#FFFFFF"> <tr> <td

Wie kann ich garantieren, dass utf-8-Zeichen werden geschabt genau mit CURL in php?

Anzahl der Antworten 1 Antworten
Ich bin scraping von Webseiten (mit php ' s curl), Zeichen mit Akzenten (wie zum Beispiel "é"). In der Quelle dieser Webseiten, werden diese Zeichen sind geschrieben, mit utf-8 (sind Sie nicht html-codiert.) Jedoch, wenn das Ergebnis

screen scraping-Technik mit php

Anzahl der Antworten 6 Antworten
Wie Bildschirm kratzen einer bestimmten website. Ich brauche zum einloggen auf einer website und dann kratzen die inneren Informationen. Wie konnte dies getan werden? Bitte guide mich. Duplizieren: Auf die Implementierung einer web-scraper in PHP? Ja, einen

Attachmate Daten Schaben makro, das druckt Seiten in Datei

Anzahl der Antworten 2 Antworten
Zeichnete ich die folgende makro mit Attachmate Extra! X-treme bei der Arbeit. Ich glaube, ich bin mit der version 9.0. Ich bin versucht zu "kratzen" Daten aus einem Bericht, der über verschiedene Bildschirme, und drucken Sie jede

Schaben bestimmten text von der website-Anwendung auf VB

Anzahl der Antworten 1 Antworten
Ich versuche, erstellen Sie eine einfache app, die im Grunde verwendet, um zu vergleichen Zeug auf mehreren websites. Ich habe gesehen, einige Möglichkeiten, um zu extrahieren alle den text in die app. Aber gibt es eine Möglichkeit,

Gewusst wie: Extrahieren von Seiten-URLs Von einer Webseite in der Masse?

Anzahl der Antworten 2 Antworten
Ich bin auf der Suche nach einer Kostenlosen Lösung/tool/software, durch die ich ziehen kann, alle von der Seite URLs. Site hat ca 992,000 Seiten, so muss ich die URLs aller von Ihnen im excel-sheet. Bin ich mit

Wie zum extrahieren von Bildern aus flash-Viewer?

Anzahl der Antworten 2 Antworten
Diese beschäftigt sich mit den (unterschiedlichen) flash-Viewer, lassen Sie zoom-in bei Bildern auf websites. Ich versuche das extrahieren der großen, vergrößertes Bild gerendert durch den Betrachter. In vielen Fällen scheinen die Bilder werden dynamisch genannt, die durch

kratzen Sie die generierte html-Code durch javascript mit python

Anzahl der Antworten 5 Antworten
Ich brauche zu kratzen, eine Seite mit python. Ich erhalten Sie das Quell-html-code mit der urlib Modul, aber ich muss mich kratzen auch etwas html-code, der generiert wird, indem Sie eine javascript-Funktion, die enthalten ist in der

Extrahieren von Daten aus Web-Scraping C#

Anzahl der Antworten 1 Antworten
Ich bin MVC ASP.NET Entwickler. Habe ich die Inhalte aus einer url, z.B. http, https usw. mithilfe der WebRequest-Klasse. Habe ich erhalten Sie alle Inhalte, insbesondere die url. (nun habe ich mich http://google.com) Mein Nächster Schritt ist,

Wie man die Liste der URLs für eine domain

Anzahl der Antworten 3 Antworten
Ich würde gerne eine Liste erstellen von URLs für eine domain, aber ich würde eher sparen Bandbreite, indem Sie nicht Crawlen der domain selbst. So ist es ein Weg, um vorhandene gecrawlten Daten? Einer Lösung, die ich

Programmatische Form Einreichen

Anzahl der Antworten 4 Antworten
Ich soll zu kratzen, die den Inhalt einer Webseite. Die Inhalte werden produziert, nachdem ein Formular auf dieser Website wurde ausgefüllt und eingereicht. Ich gelesen habe, wie kratzen das Endergebnis Inhalte/Webseite - aber wie kann ich programmgesteuert

Parsen von Html-Seiten mit Python und lxml.html

Anzahl der Antworten 1 Antworten
Ich erstelle ein Python-Schaber an scraperwiki.com. Ich brauche zum analysieren eines Teils einer html-Seite, die folgenden code enthält: <div class="div_class"> <h3>I'm a title. Don't touch me</h3> <ul> <li> I'm a title. Parse me <ul> <li>fdfdsfd</li> <li>fdfdsfd</li> <li>fdfdsfd</li>

Klicken Sie auf die Schaltfläche auf der website, dann kratzen web-Seite

Anzahl der Antworten 1 Antworten
Ich habe eine website, ich möchte auf eine Schaltfläche klicken, dann kratzen die website mit python html-code zwischen den button ist: <span id="exchange-testing" class="exchange-input nav-link" data track="&amp;lid=testing&amp;lpos=site_settings" data-value="testing">Testing</span> Ist das möglich? Ich bin in der Lage, kratzen

web scraping dynamische Inhalte mit python

Anzahl der Antworten 3 Antworten
Ich würde gerne Python verwenden, um kratzen den Inhalt von "Sie Waren auf der Suche für diese Autoren:" box, die auf web-Seiten wie diese: http://academic.research.microsoft.com/Search?query=lander Leider ist der Inhalt der box geladen werden dynamisch durch JavaScript. In