Tag: web-scraping
Web scraping ist das Verfahren der Extraktion von spezifischen Informationen aus websites, die nicht ohne weiteres eine API bereitstellen, oder andere Methoden der automatisierten Datenabruf. Fragen über „Wie man Mit Schaben“ (z.B. mit Excel, VBA) sollte *gründlich recherchiert,* wie viele funktionale code-Beispiele sind verfügbar. Web-scraping-Methoden gehören 3rd-party-Anwendungen, Entwicklung von Individualsoftware, oder sogar die manuelle Datensammlung in einer standardisierten Art und Weise.
2
Antworten
Ich bin neu in Python und BeautifulSoup ich bin versucht zu extrahieren dict von BeautifulSoup. Ich verwendet habe, BeautifulSoup zum extrahieren von JSON und bekam beautifulsoup.beautifulsoup variable soup. Ich versuche Werte aus soup, aber wenn ich das
1
Antworten
Ich habe eine csv-Datei ("SomeSiteValidURLs.csv"), die aufgeführt sind alle links, die ich brauche zu kratzen. Der code funktioniert und gehen durch die urls in der csv, kratzen die Informationen und aufnehmen/speichern in eine andere csv-Datei ("Ausgabe.csv"). Aber
4
Antworten
Entfernen Sie alle backslash in einem JavaScript-string ? var str = "one thing\\\'s for certain: power blackouts and surges can damage your equipment."; Möchte ich eine Ausgabe wie one thing's for certain: power blackouts and surges can
2
Antworten
Ich die strip_tags() Funktion, aber ich brauche entfernen einige tags (und alle Ihre Inhalte). Beispiel : <div> <p class="test"> Test A </p> <span> Test B </span> <div> Test C </div> </div> Lassen Sie uns sagen, ich brauche,
2
Antworten
<div id="ContentPrimary"> <ul class="selectors modeSelectors"> <li><a href="/content/l411846326l1213g/references/" title=""> <span class="selector">References (27)</span></a></li> <li><a href="/content/l411846326l1213g/referrers/" title=""> <span class="selector">Cited By (2)</span></a></li> <li><a href="/content/l411846326l1213g/export-citation/" title=""> <span class="selector">Export Citation</span></a></li> <li><a href="/content/l411846326l1213g/about/" title=""> <span class="selector">About</span></a></li> </ul> In diesem ich brauche zu finden, und
3
Antworten
Ich würde gerne alle den text sichtbar von einer website, nachdem das HTML gerendert wird. Ich arbeite in Python mit Scrapy framework. Mit xpath('//body//text()') ich bin in der Lage, es zu bekommen, aber mit den HTML-tags, und
4
Antworten
Ich versuche zu lernen, wie RCurl (oder andere geeignete R-Paket, wenn ich falsch bin, über RCurl richtigen Werkzeug) zu automatisieren den Prozess der übermittlung Suchbegriffe ein web-Formular und platzieren Sie die Ergebnisse der Suche in einer Datenbank-Datei.
2
Antworten
Arbeite ich an einem Projekt, das erfordert, dass bestimmte Statistiken auf einer anderen website, und ich ' ve erstellt eine HTML-scraper, die Daten erhält alle 15 Minuten automatisch. Allerdings habe ich aufgehört den bot jetzt, als in
2
Antworten
Die Daten auf der Webseite angezeigt wird dynamisch und es scheint, dass die überprüfung für jede änderung in der html und das extrahieren der Daten ist eine sehr schwierige Aufgabe und braucht auch mich sehr unzuverlässig XPath-Ausdrücken.
3
Antworten
Meine python-Niveau ist Anfänger. Ich habe nie geschrieben, ein web-scraper oder crawler. Ich habe geschrieben, ein python code um die Verbindung zu einer api, und extrahieren Sie die Daten, die ich will. Aber für einige der extrahierten
4
Antworten
Ich habe mit Selen für die automatische browser-Simulationen und web-scraping in python und es hat gut für mich gearbeitet. Aber jetzt habe ich es zum laufen hinter einem proxy-server. So, jetzt Selen öffnen Sie die Fenster, aber
2
Antworten
Ich versuche die Verwendung von python und schöne Suppe, den Inhalt zu extrahieren-Teil des tags unten: <meta property="og:title" content="Super Fun Event 1" /> <meta property="og:url" content="http://superfunevents.com/events/super-fun-event-1/" /> Ich bin immer BeautifulSoup zu laden Sie die Seite einfach
2
Antworten
Bin ich mit Python und BeautifulSoup für web-scraping. Können sagen, ich habe den folgenden html-code zu kratzen: <body> <div class="product">Product 1</div> <div class="product">Product 2</div> <div class="product special">Product 3</div> <div class="product special">Product 4</div> </body> Mit BeautifulSoup, ich will
1
Antworten
Meinen code erfolgreich Schrammen die tr align=center-tags aus [ http://my.gwu.edu/mod/pws/courses.cfm?campId=1&termId=201501&subjId=ACCY ] und schreibt die td-Elemente in eine text-Datei. Allerdings gibt es mehrere Seiten auf der Website oben in die ich möchte in der Lage sein zu kratzen.
3
Antworten
Ich bin Praktizierender Selen in python und ich wollte Sie Holen, alle links auf einer web-Seite mit Selen. Zum Beispiel, ich möchte alle links in "a href" - tag von diese website : http://psychoticelites.com/ Habe ich ein
2
Antworten
Ich versuche, mich zu kratzen, Daten von einem Passwort-geschützten website in R. zu Lesen, es scheint, dass die httr und RCurl Pakete sind die besten Optionen für die Verschrottung mit Passwort-Authentifizierung (hab ich auch sah in das
3
Antworten
Ich versuche zu kratzen, diese Website durch Selen. Ich möchten, klicken Sie auf "Nächste Seite" - Button, für das ich: driver.find_element_by_class_name('pagination-r').click() es funktioniert bei vielen Seiten, aber nicht für alle, ich habe diesen Fehler WebDriverException: Message: Element
3
Antworten
Ich würde wirklich gerne in der Lage sein zu ermöglichen Schöne Suppe für eine beliebige Liste von tags, wie so. Ich weiß, attr akzeptiert regex, aber es ist alles in schönen Suppe, die es Ihnen erlaubt, dies
3
Antworten
Ich habe einen webBrowser und einem label in Visual Studio, und im Grunde, was ich versuche zu tun ist, schnappen Sie sich einen Abschnitt von einer anderen Webseite. Versuchte ich mit WebClient.DownloadString und WebClient.DownloadFile, und beide geben
4
Antworten
Ich entwickle ein Projekt, für das ich möchte kratzen, die Inhalte einer Webseite in den hintergrund und Holen Sie sich einige begrenzte Inhalte aus, kratzte website. Zum Beispiel in meine Seite habe ich "userid" und "password" -
3
Antworten
Ich würde gerne wissen, ob es eine Java-Bibliothek entspricht PhantomJS. Was ich erreichen möchte ist, simulieren zu können, Anmeldeformular und senden Aktionen von einem web-Seite und auch die Seite " Schaben gut. Ich weiß jsoup funktioniert Seite
2
Antworten
Habe ich über viele tutorials, die erklären wie man kratzen öffentlichen websites, die nicht erfordern eine Authentifizierung/login, mit node.js. Kann jemand erklären, wie kratzen Sie die Seiten, die eine Anmeldung erforderlich ist mit node.js? hast du diese
2
Antworten
Ich versuche, eine Anwendung zu erstellen, die es Benutzern ermöglicht, um eine bestimmte Universität und Daten über Sie (Eintrittspreis, SAT Partituren, Größe, etc.). Aber ich kann nicht finden, eine API/Datenbank, die ich verwenden kann. Ich weiß, die
2
Antworten
CasperJS aufgerufen wird von PHP mit einem exec() Befehl. Nach CasperJS tut seine Arbeit, wie beispielsweise das abrufen von teilen einer Webseite, wie können die abgerufenen Daten zurück zu PHP? InformationsquelleAutor Nyxynyx | 2013-04-06
4
Antworten
Lerne ich Scrapy, ein web-crawling-framework. Ich weiß, ich kann USER_AGENT im settings.py - Datei des Scrapy Projekt. Wenn ich das Scrapy, ich kann sehen, dass die USER_AGENT's Wert in INFO protokolliert. Diese USER_AGENT festgelegt wird, in jede
4
Antworten
Vor kurzem habe ich eine Website-Vorlage genehmigt am Themeforest. Ich bin immer einfach zu viel traffic auf meiner Website und bemerkte, dass meine demo auf Themeforest immer verarscht von einigen Programmen wie HTTrack. Wenn das so weiter
5
Antworten
Ich versuche, kratzen Sie die Daten von der website: http://uk.investing.com/rates-bonds/financial-futures über vba, wie zum Beispiel Echtzeit-Preise, d.h. Deutsch 5 YR-Bobl, US 30Y T-Bond, ich habe versucht, excel web-Abfrage, sondern es nur Schrammen die ganze website, aber ich
3
Antworten
Meine lokalen Flughafen disgracefully blockiert Benutzer ohne IE, und sieht schrecklich. Ich möchte schreiben Sie ein Python-Skripte, die die Inhalte der an-und Abreise die Seiten alle paar Minuten, und zeigen Sie Sie in einem besser lesbaren Weise.
1
Antworten
Ich bin versucht zu Crawlen einer Website für news-Artikel. Meine start_url enthält: (1) links zu jedem Artikel: http://example.com/symbol/TSLA und (2) ein "Mehr" - button, der macht einen AJAX-call, die dynamisch weitere Artikel innerhalb derselben start_url: http://example.com/account/ajax_headlines_content?type=in_focus_articles&page=0&slugs=tsla&is_symbol_page=true Parameter
2
Antworten
Ich bin neu scrapy und ich bin versucht zu kratzen, die Ikea website Webseite. Der basic-Seite mit der Liste der Standorte als gegeben hier. Meine items.py Datei wird unten gegeben: import scrapy class IkeaItem(scrapy.Item): name = scrapy.Field()
4
Antworten
Ich habe das Spiel mit dem abkratzen von Daten aus web-Seiten mit VBS/VBA. Wenn es Javascript würde ich Weg sein, da seine einfache, aber es scheint nicht ganz so geradlinig in VBS/VBA. Dies ist ein Beispiel, die
1
Antworten
Ich habe mit HTML-Parser Verschrottung von Daten aus Webseiten und stripping html-Codierung dabei. Ich bin mir bewusst, dass verschiedene Module wie Schöne Suppe, aber beschlossen zu gehen auf dem Weg der nicht in Abhängigkeit von "außen" -
4
Antworten
Verwende ich XML-Paket zu bekommen, die links von diese url. # Parse HTML URL v1WebParse <- htmlParse(v1URL) # Read links and and get the quotes of the companies from the href t1Links <- data.frame(xpathSApply(v1WebParse, '//a', xmlGetAttr, 'href'))
1
Antworten
Kann ein Telegramm, bot Lesen/Zugriff auf ein Telegramm-Kanal, dass weder ich oder der bot ist administrator? Ich weiß, dass bis zum letzten November, es war nicht möglich, aber ich habe gehört, einige Leute haben das getan, aber
2
Antworten
Möchte ich die folgenden code, das ist, was BS Dokumentation zu tun, sagt, das problem ist nur, dass das Wort "Klasse" ist nicht nur ein Wort. Es kann gefunden werden innerhalb von HTML, aber es ist auch
6
Antworten
Wenn es keine webservice-API zur Verfügung, ist Ihre einzige option sein könnte, um zu Bildschirm zu Kratzen, aber wie machst du das in c#? wie denken Sie, es zu tun? Wenn die Ergebnisse wichtig sind, dann glaube
13
Antworten
Hallo ich möchte erstellen Sie eine desktop-app (c# prob), dass Kratzer oder manipuliert ein Formular auf eine 3rd-party-web-Seite. Grundsätzlich habe ich meine Daten eingeben in der form, in der desktop-app, es geht Weg, um die 3rd-party-website, und
3
Antworten
Problem: wenn ich versuche das script ausführen, BeautifulSoup(html, ...) gibt die Fehlermeldung "TypeError: object of type 'Antwort' has no len(). Ich habe versucht, vorbei am eigentlichen html als parameter, aber es funktioniert immer noch nicht. import requests
3
Antworten
Ich bin das Experimentieren mit dieser Website zu sammeln, mein Benutzername willkommen auf der Seite zu erfahren, Jsoup und Android. Mit dem folgenden code Connection.Response res = Jsoup.connect("http://www.mikeportnoy.com/forum/login.aspx") .data("ctl00$ContentPlaceHolder1$ctl00$Login1$UserName", "username", "ctl00$ContentPlaceHolder1$ctl00$Login1$Password", "password") .method(Method.POST) .execute(); String sessionId =
4
Antworten
Aus einer großen Tabelle möchte ich Lesen die Zeilen 5, 10, 15, 20 ... mit BeautifulSoup. Wie mache ich das? Ist findNextSibling und einem inkrementierenden Zähler der Weg zu gehen? InformationsquelleAutor der Frage aadvaark | 2012-01-04
3
Antworten
Gerade jetzt, ich fange die exception in der except Exception: - Klausel, und führen print(exception). Das Ergebnis liefert keine Informationen, da druckt er immer <class 'Exception'>. Ich wusste, dass dies funktionierte in python 2, aber wie mache
2
Antworten
Ich habe schon gesehen,diese Frage zu Schaben ajaxaber python ist nicht dort erwähnt. Als ich mit scrapyich glaube, Sie haben einige Dokumentationen zu diesem Thema, aber wie Sie sehen können, die website ist down. Also ich weiß
1
Antworten
Ich versuche eine Tabelle erstellen, die kratzen mit BeautifulSoup. Ich schrieb diesen Python-code: import urllib2 from bs4 import BeautifulSoup url = "http://dofollow.netsons.org/table1.htm" # change to whatever your url is page = urllib2.urlopen(url).read() soup = BeautifulSoup(page) for i
2
Antworten
Ich versuche, phantomJS zu erfassen, einen screenshot von einer URL, jedoch wenn ich Anrufe, phantomJS (entweder über die Befehlszeile oder web-app) hängt es und seesm nie führen Sie die "exit()" aufrufen. Ich kann nicht scheinen, um herauszufinden,
2
Antworten
Habe ich input-element so angezeigt : <input type="text" class="bg-white" id="couponCode" value=""> Wie kann ich das einstellen/füllen Sie den Wert mit casperJs InformationsquelleAutor der Frage user2129794 | 2013-08-11
4
Antworten
Ich versuche zu krabbeln einer url mit Scrapy. Aber es leitet mich zu Seite, die nicht existiert. Redirecting (302) to <GET http://www.shop.inonit.in/mobile/Products/Inonit-Home-Decor--Knick-Knacks-Cushions/Shor-Sharaba/Andaz-Apna-Apna-Cushion-Cover/1275197> from <GET http://www.shop.inonit.in/Products/Inonit-Home-Decor--Knick-Knacks-Cushions/Shor-Sharaba/Andaz-Apna-Apna-Cushion-Cover/pid-1275197.aspx> Das problem ist http://www.shop.inonit.in/Products/Inonit-Home-Decor--Knick-Knacks-Cushions/Shor-Sharaba/Andaz-Apna-Apna-Cushion-Cover/pid-1275197.aspx vorhanden ist, aber http://www.shop.inonit.in/mobile/Products/Inonit-Home-Decor--Knick-Knacks-Cushions/Shor-Sharaba/Andaz-Apna-Apna-Cushion-Cover/1275197 nicht, so dass der
8
Antworten
Möchte ich extrahieren, die eine bestimmte Art von Informationen aus web-Seiten in Python. Lassen Sie uns sagen, postalische Adresse. Es hat Tausende von Formen, aber immer noch, es ist irgendwie erkennbar. Da es eine große Anzahl von
5
Antworten
Ich bin Schaben eine Webseite mit Selenium webdriver in Python Die Webseite, die ich arbeite, hat eine form. Ich bin in der Lage, um die form zu füllen und dann klicke ich auf den Submit-button. Es erzeugt
3
Antworten
Nur Fragen, ob jemand weiß von einem web-scraping-Bibliothek, die die Vorteile von Scala prägnante syntax. Bisher habe ich gefunden Scheuernaber das scheint schlecht dokumentiert und gepflegt. Ich Frage mich, ob jemand da draußen getan hat, Schaben mit
7
Antworten
Ich bin versucht zu Holen von Daten von einer website. Aber es gibt mir incomplete read. Die Daten, die ich versuche zu bekommen ist eine riesige Menge von verschachtelten links. Ich habe einige der Forschung online und