Tag: screen-scraping
Screen-scraping, auch bekannt als web-scraping oder data-scraping, ist eine software Technik, die verwendet wird, zu sammeln und zu analysieren, die Informationen von user interfaces. Wenn Ihre Frage ist speziell über scraping von websites oder web-APIs, nutzen Sie bitte die [web-scraping] – tag statt.
1
Antworten
Ich versuche 3. wählen Sie die Schaltfläche mit der css-Klasse "btnProceed" <input type="button" class="btnProceed" value=" " onclick="SecuritySubmit(false,'https://somewebsite.com/key=xxyyzz');return false;"> Mein code ist wie folgt: WebElement query_enquirymode = driver.findElement(By.className("btnProceed")); query_enquirymode.click(); Kann ich nur wählen Sie das 1. element mit
2
Antworten
Ich Suche ein tool, dass kann ausgeführt werden auf der Kommandozeile wie folgt: tablescrape 'http://someURL.foo.com' [n] Wenn n ist nicht angegeben und es gibt mehr als eine HTML-Tabelle auf der Seite, es sollte zusammenfassen (Kopfzeile, Anzahl der
2
Antworten
Ich bin mit einigen fiesen character-encoding-Probleme, die ich einfach nicht herausfinden können. Im Grunde genommen bin ich screen scraping einige HTML von einer Website mit PHP, dann läuft es über das PHP-DOMDocument-Objekt zu ändern, einige URL '
2
Antworten
Fand ich die HTML-Agility-Pack nützlich und einfach zu verwenden für screen scraping web-sites. Was ist das äquivalent Bibliothek für HTML screen scraping in Java, Ruby, Python? InformationsquelleAutor Sajee | 2009-06-29
2
Antworten
Dies ist eine zweiteilige Frage. F1: Können cURL-basierten request-100% imitieren eine browser-basierte Anfrage? f2: Wenn ja, was Sie alle Optionen festgelegt werden sollten. Wenn nicht, welche zusätzliche macht der browser, dass keine Biene imitiert mit cURL? Ich
3
Antworten
Ich bin ein sehr neuer Programmierer.. Eine website bietet eine Menge von zip-Dateien, die ich brauchte. Es wird aktualisiert/neu aufgespielt zip-Dateien wöchentlich. Was ich tun müssen, ist schreiben Sie ein Programm/Skript zu tun, automatischer Download von der
9
Antworten
Was ist die beste Methode, um kratzen eine dynamische website, wo die meisten Inhalte werden durch das, was erscheint, um ajax-requests? Ich habe Vorherige Erfahrung mit einem Mechanisieren, BeautifulSoup, und python-combo, aber ich bin für etwas neues.
2
Antworten
Was ist die beste Juwel (Bildschirm) kratzen Webseiten, die ein Kennwort geschützt ist? InformationsquelleAutor Rails beginner | 2011-02-18
4
Antworten
Wie in Firefox (Desktop-version) kann ich mit Fireshot und in Android kann ich mit Dolphin Screen Cut Ich weiß schon, dass wir screendump mit wake+home dauert es nicht screencapture der gesamten Webseite einschließlich der Fläche unter den
4
Antworten
Muss ich an eine web-Seite und entpacken Sie die Adressinformationen von der Seite. Einige sind einfacher als andere. Ich bin auf der Suche nach einem firefox-plugin, windows-app, oder VB.NET code, der mir helfen, dieses getan. Idealerweise würde
2
Antworten
Was sind einige Ruby-basierte tools, die mir helfen können erreichen was ähnliches wie Scrapy tut für python? http://doc.scrapy.org/intro/overview.html Möchten Sie vielleicht nur geben, scrapy ein Schuss. Es scheint hervorragende Dokumentation und eine sehr freundliche API. Wenn Sie
3
Antworten
Derzeit arbeite ich mit einem <ul> element mit einer Menge first-level - <li> Elemente. Ich möchte, um diese Elemente, und nur diese Elemente. Allerdings, wenn ich Sie entweder mit Jsoup-Selektor oder getElementsByTag, es gibt auch <li> Elemente
2
Antworten
Problem: Kann nicht ganz verstehen, die Goutte web scraper. Anfrage: Kann mir bitte jemand helfen zu verstehen, oder geben Sie code, um mir zu helfen besser zu verstehen, wie zu verwenden Goutte web-scraper? Ich habe gelesen, über
3
Antworten
Habe ich eine python-web-crawler, und ich will zur Verteilung der download-Anfragen unter vielen verschiedenen proxy-Servern, läuft wahrscheinlich squid (obwohl ich bin offen für alternativen). Zum Beispiel, könnte es die Arbeit im round-robin-Mode, wo request1 geht an proxy1,
1
Antworten
Gehen Sie bitte auf den link http://www.networksolutions.com/whois-search/reedandthomas.com Ich extrahieren möchten nur den unteren Teil des Textes: Administrative Contact: Chilcoat, Dan
[email protected] Reed & Thomas Electrical Contractors, Inc 621 Hanover Pike Hampstead, Maryland 21074 United States (410) 239-9680
5
Antworten
Diese palette Zyklus Bilder sind atemberaubend: http://www.effectgames.com/demos/canvascycle/?sound=0 Ich würde gerne einige (oder alle) von diesen in desktop-Hintergründe. Könnte ich eine animierte gif-version, aber ich habe keine Ahnung, wie man das von der Leinwand "animation". Ist dort nichts
1
Antworten
Ich versuche zu kratzen ein JavaScript-aktiviert die Seite mit BS und Selen. Ich habe den folgenden code so weit. Es immer noch nicht irgendwie erkennen, die JavaScript (und gibt einen null-Wert). In diesem Fall bin ich versucht
1
Antworten
Ich versuche, herauszufinden, eine gute Möglichkeit zur Steigerung der Produktivität von meinen Daten Eintrag job. Was ich Suche, nur zu kommen mit einer Art und Weise zu kratzen, Daten aus einer PDF-Datei und die Eingabe in Excel.
2
Antworten
Wir haben ein tool, das prüft, ob eine angegebene URL ist eine live-URL. Wenn eine angegebene url ist live ein anderer Teil unserer software kann der Bildschirm Schrott, den Inhalt von ihm. Dies ist mein code für
2
Antworten
Muss ich screen scrape einer Webseite mit ActiveX-Steuerelemente für die navigation. Dies ist nicht für den ui-Test-Zwecke, die für Daten-downloads von einem legacy-Anwendung. Das Problem, das ich habe, ist die top-navigation ist vollständig ActiveX mit javascript unmöglich
2
Antworten
Ich gerade angefangen mit Nokogiri an diesem morgen, und ich Frage mich, wie so führen Sie eine einfache Aufgabe: ich muss nur suchen, eine Webseite für ein div-Element wie diesem: <div id="verify" style="display:none"> site_verification_string </div> Ich will,
3
Antworten
Hat jemand integrierten BeautifulSoup mit ASP.NET/C# (evtl. mit IronPython oder anderweitig)? Gibt es eine BeautifulSoup alternative oder einen Anschluss, der funktioniert gut mit ASP.NET/C# Der Absicht, von der Planung bis zur Nutzung der Bibliothek zu extrahieren lesbar
3
Antworten
Ich versuche, mit BeautifulSoup zu bekommen text von web-Seiten. Unten ist eine Skript, das ich geschrieben habe zu tun. Es nimmt zwei Argumente, Erstens ist die Eingabe von HTML-oder XML-Datei, die zweite Ausgabedatei. import sys from bs4
2
Antworten
Arbeite ich an einer website, Schaben-Projekt mit Selen in Python. Wenn ich öffnen Sie die Startseite durch einen browser, es öffnet sich richtig. Aber, wenn ich versuche, öffnen Sie die Webseite, durch webdriver() an Selen, es öffnet
4
Antworten
Ich weiß, dies wurde gebeten vor, aber ich kann nicht finden, eine gute Antwort für node.js Brauche ich server-Seite zu extrahieren Sie den reinen text (keine tags, script, etc.) aus einer HTML-Seite, die abgerufen wird. Ich wissen,
2
Antworten
Folgendes hat nicht funktioniert. Ich weiß nicht, warum es nur halt in die Start-url, gehen Sie nicht in die links, um die Suche für die angegebene Datei-Typ. wget -r -Ein .pdf home_page_url Andere Weise rekursiv herunterladen alle
3
Antworten
Ich nicht getan habe, diese in 3 oder 4 Jahren, aber ein Kunde möchte, dass ein downgrade Ihrer dynamischen website in statischem HTML. Gibt es Kostenlose tools gibt, um das Crawlen einer Domäne und generiert HTML-Dateien arbeiten,
2
Antworten
Ich bin mit scrapy - Bildschirm kratzen von Daten von einer website. Jedoch die Daten, die ich wollte war nicht im html-Code selbst, sondern von einem javascript. So, meine Frage ist: Wie man die Werte (text-Werte) von
5
Antworten
Ich habe gesucht und gesucht über Regex, aber ich kann nicht scheinen, etwas zu finden, dass wird mir erlauben, dies zu tun. Ich brauche, um das 12.32, 2,300, 4.644 M und 12,444.12 aus den folgenden strings in
10
Antworten
Muss ich einige Werte, die gespeichert sind, in eine Webseite, für die ich brauche zu kratzen, die website und das abrufen der Inhalte aus der Tabelle. Irgendwelche Ideen? InformationsquelleAutor |
16
Antworten
Mich bannen zu müssen Produkt-Daten von einer Website auf einer regelmäßigen basis, und fragte sich, ob jeder weiß, der ein gutes software-Programm? Ich habe erprobt Mozenda aber es ist ein monatliches Abonnement und teuer auf lange Sicht.
3
Antworten
Möchte ich den Inhalt einer URL (. e.q., http://www.haaretz.com/) in R. Frage ich mich, wie ich es tun kann InformationsquelleAutor Mark | 2009-12-04
1
Antworten
Ich bin auf der Suche zum erstellen einer app mithilfe von property-Daten. Nestoria ist eine freie API und die Regeln der Nutzung und Zoopla eine API, die Sie registrieren. OnTheMarket und Rightmove haben die gleichen Nutzungsbedingungen, die
4
Antworten
Gibt es eine website, die erstellt wurde, mithilfe von ColdFusion (nicht sicher, ob dies wichtig ist oder nicht). Ich muss mit dieser Website interagieren. Die wichtigsten Dinge, die ich tun muss, navigieren Sie zu den verschiedenen Seiten
4
Antworten
Ich brauche, um die referer-url, vor dem Schaben eine Website, die Website verwendet verwenden, die url-basierte Authentifizierung, so dass es nicht zulassen, mich anzumelden, wenn der referer ist nicht gültig. Könnte mir jemand sagen, wie das im
2
Antworten
Ich bin erstellen einer iOS-app, muss man einige Daten aus einer web-Seite. Meine erste aber war NSXMLParser initWithContentsOfURL: und Parsen der HTML mit den NSXMLParser delegieren. Jedoch dieser Ansatz scheint, wie es kann schnell schmerzhaft werden (wenn,
1
Antworten
Möchte ich submit form von einer Webseite, die mehrere Formen. Ich möchte dieses Formular abgesendet haben unten im besonderen. <form action="realDisplay.asp" method="post" name="Search" onSubmit="return validate(this); return submitForm();" target="_blank"> <table width="98%" align="center" cellspacing="0" cellpadding="0" border="1" bordercolor="#FFFFFF"> <tr> <td
1
Antworten
Ich bin scraping von Webseiten (mit php ' s curl), Zeichen mit Akzenten (wie zum Beispiel "é"). In der Quelle dieser Webseiten, werden diese Zeichen sind geschrieben, mit utf-8 (sind Sie nicht html-codiert.) Jedoch, wenn das Ergebnis
6
Antworten
Wie Bildschirm kratzen einer bestimmten website. Ich brauche zum einloggen auf einer website und dann kratzen die inneren Informationen. Wie konnte dies getan werden? Bitte guide mich. Duplizieren: Auf die Implementierung einer web-scraper in PHP? Ja, einen
2
Antworten
Zeichnete ich die folgende makro mit Attachmate Extra! X-treme bei der Arbeit. Ich glaube, ich bin mit der version 9.0. Ich bin versucht zu "kratzen" Daten aus einem Bericht, der über verschiedene Bildschirme, und drucken Sie jede
1
Antworten
Ich versuche, erstellen Sie eine einfache app, die im Grunde verwendet, um zu vergleichen Zeug auf mehreren websites. Ich habe gesehen, einige Möglichkeiten, um zu extrahieren alle den text in die app. Aber gibt es eine Möglichkeit,
2
Antworten
Ich bin auf der Suche nach einer Kostenlosen Lösung/tool/software, durch die ich ziehen kann, alle von der Seite URLs. Site hat ca 992,000 Seiten, so muss ich die URLs aller von Ihnen im excel-sheet. Bin ich mit
2
Antworten
Diese beschäftigt sich mit den (unterschiedlichen) flash-Viewer, lassen Sie zoom-in bei Bildern auf websites. Ich versuche das extrahieren der großen, vergrößertes Bild gerendert durch den Betrachter. In vielen Fällen scheinen die Bilder werden dynamisch genannt, die durch
5
Antworten
Ich brauche zu kratzen, eine Seite mit python. Ich erhalten Sie das Quell-html-code mit der urlib Modul, aber ich muss mich kratzen auch etwas html-code, der generiert wird, indem Sie eine javascript-Funktion, die enthalten ist in der
1
Antworten
Ich bin MVC ASP.NET Entwickler. Habe ich die Inhalte aus einer url, z.B. http, https usw. mithilfe der WebRequest-Klasse. Habe ich erhalten Sie alle Inhalte, insbesondere die url. (nun habe ich mich http://google.com) Mein Nächster Schritt ist,
3
Antworten
Ich würde gerne eine Liste erstellen von URLs für eine domain, aber ich würde eher sparen Bandbreite, indem Sie nicht Crawlen der domain selbst. So ist es ein Weg, um vorhandene gecrawlten Daten? Einer Lösung, die ich
4
Antworten
Ich soll zu kratzen, die den Inhalt einer Webseite. Die Inhalte werden produziert, nachdem ein Formular auf dieser Website wurde ausgefüllt und eingereicht. Ich gelesen habe, wie kratzen das Endergebnis Inhalte/Webseite - aber wie kann ich programmgesteuert
1
Antworten
Ich erstelle ein Python-Schaber an scraperwiki.com. Ich brauche zum analysieren eines Teils einer html-Seite, die folgenden code enthält: <div class="div_class"> <h3>I'm a title. Don't touch me</h3> <ul> <li> I'm a title. Parse me <ul> <li>fdfdsfd</li> <li>fdfdsfd</li> <li>fdfdsfd</li>
1
Antworten
Ich habe eine website, ich möchte auf eine Schaltfläche klicken, dann kratzen die website mit python html-code zwischen den button ist: <span id="exchange-testing" class="exchange-input nav-link" data track="&lid=testing&lpos=site_settings" data-value="testing">Testing</span> Ist das möglich? Ich bin in der Lage, kratzen
3
Antworten
Ich würde gerne Python verwenden, um kratzen den Inhalt von "Sie Waren auf der Suche für diese Autoren:" box, die auf web-Seiten wie diese: http://academic.research.microsoft.com/Search?query=lander Leider ist der Inhalt der box geladen werden dynamisch durch JavaScript. In