Tag: html-content-extraction

Techniken für die Vorhersage/erkennt bestimmte Artikel text und die Extraktion von für ein bestimmtes Dokument.

php : Parser html : script-tags extrahieren von Körper und injizieren vor </body>?

Anzahl der Antworten 4 Antworten
Ist mir egal, was die Bibliothek ist, aber ich brauche einen Weg zu extrahieren <.script.> - Elemente aus der <.Körper.> der einen Seite (als string). Dann möchte ich einfügen der extrahierten <.script.>s nur vor <./Körper.>. Im Idealfall

Erstellen Sie Tolle Parser - Relevante Text Aus HTML/Blogs

Anzahl der Antworten 2 Antworten
Ich versuche zu schaffen, eine generalisierte HTML-parser, die gut funktioniert auf Blog-Posts. Ich möchte mein parser auf die spezifischen Eintrag geben Sie die URL, und bekommen Sie wieder saubere text des Beitrags selbst. Mein Ansatz (von python)

Extrahieren Sie den gewünschten text ein HTML-Dokument mit PHP

Anzahl der Antworten 4 Antworten
Ich weiß, es ist besser, verwenden Sie DOM für diesen Zweck, aber wir versuchen, extrahieren Sie den text in dieser Weise: <?php $html=<<<EOD <html> <head> </head> <body> <p>Some text</p> </body> </html> EOD; preg_match('/<body.*?>/', $html, $matches, PREG_OFFSET_CAPTURE); if

Mit MSXML2.XMLHTTP in Excel VBA zum extrahieren von große Mengen an text-Daten, die von der website

Anzahl der Antworten 2 Antworten
Ich versuche, download historical stock price Daten vom finance.yahoo.com für 1000 Aktien. Die website zeigt nur 60 Tagen Daten auf einer einzigen Seite, so habe ich eine Schleife über die Zeit, in der ich die Dateien herunterlade,

Wie kann ich Lesen und analysieren den Inhalt einer Webseite in R

Anzahl der Antworten 3 Antworten
Möchte ich den Inhalt einer URL (. e.q., http://www.haaretz.com/) in R. Frage ich mich, wie ich es tun kann InformationsquelleAutor Mark | 2009-12-04

Extrahieren Sie Teil eines regex-match

Anzahl der Antworten 9 Antworten
Ich soll ein regulärer Ausdruck zum extrahieren der Titel von einer HTML-Seite. Derzeit habe ich dieses: title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', '').replace('</title>', '') Gibt es einen regulären Ausdruck extrahieren Sie den Inhalt

Extrahieren von Daten aus HTML mit PHP

Anzahl der Antworten 1 Antworten
Hier ist, was ich Suche : Habe ich einen Link, der zeigt einige Daten auf HTML-format : http://www.118.com/people-search.mvc...0&pageNumber=1 Daten in folgenden format : <div class="searchResult regular"> Vogel John 56 Leathwaite Road London SW11 6RS 020 7228 5576

Lesen source-code von einer Webseite in java

Anzahl der Antworten 3 Antworten
Ich versuche zu Lesen-source-code von einer Webseite. Mein java code ist import java.net.*; import java.io.*; import java.util.*; import javax.swing.JOptionPane; class Testing{ public static void Connect() throws Exception{ URL url = new URL("http://excite.com/education"); URLConnection spoof = url.openConnection(); spoof.setRequestProperty(

Wie man Daten von einer Webseite

Anzahl der Antworten 5 Antworten
Vorwort: ich habe ein breites, college-wissen, eine Handvoll Sprachen (C++, VB,C#,Java, viele web-Sprachen), so gehen Sie mit was immer Sie möchten. Möchte ich eine android-app, vergleicht zahlen, aber um das zu tun, brauche ich eine Datenbank. Ich

Gewusst wie: extrahieren von Werten aus einem HTML mit RegEx?

Anzahl der Antworten 3 Antworten
Angesichts des folgenden HTML-Code: <p><span class="xn-location">OAK RIDGE, N.J.</span>, <span class="xn-chron">March 16, 2011</span> /PRNewswire/-- Lakeland Bancorp, Inc. (Nasdaq: <a href='http://studio-5.financialcontent.com/prnews?Page=Quote&Ticker=LBAI' target='_blank' title='LBAI'> LBAI</a>), the holding company for Lakeland Bank, today announced that it redeemed <span class="xn-money">$20 million</span> of

Wie gehen Sie schnappen Sie sich einen text aus der Webseite (Java)?

Anzahl der Antworten 10 Antworten
Ich Plane, schreiben Sie einfachen J2SE-Anwendung zu aggregieren Informationen aus mehreren web-Quellen. Der schwierigste Teil, denke ich, ist die Extraktion von sinnvollen Informationen aus web-Seiten, wenn es nicht verfügbar ist als RSS-oder Atom-feeds. Ich könnte zum Beispiel

Gewusst wie: integrieren von HTML-Seiten in WordPress?

Anzahl der Antworten 5 Antworten
Ich habe eine Seite in HTML(index.html), und einen Ordner namens images, css, js, verwendet. Nun muss ich dazu in WordPress. Gibt es irgendein plug-in zum konvertieren von Html zu WordPress oder jede andere Art, dies zu tun

Wie das Parsen von HTML mit C++/Qt?

Anzahl der Antworten 2 Antworten
Wie kann ich analysieren Sie den folgenden HTML - <body> <span style="font-size:11px">12345</span> <a>Hello<a> </body> Ich würde gerne ermittelt werden die Daten "12345" von einem "span" mit style="font-size:11px" aus www.testtest.com aber ich will nur die, die sehr Daten-und

regulärer Ausdruck zum extrahieren von text aus HTML

Anzahl der Antworten 12 Antworten
Möchte ich extrahieren aus einer Allgemeinen HTML-Seite, wird der text (angezeigt oder nicht). Möchte ich entfernen alle HTML-tags Javascript Alle CSS-Stile Gibt es einen regulären Ausdruck (einem oder mehr), zu erreichen? Siehe stackoverflow.com/questions/37486/..., auch. Hüten Sie sich

Wie screen scraper arbeiten?

Anzahl der Antworten 9 Antworten
Höre ich die Leute schreiben diese Programme die ganze Zeit und ich weiß, was Sie tun, sondern wie Sie es tatsächlich tun? Ich bin auf der Suche nach Allgemeinen Konzepten. InformationsquelleAutor der Frage |

Wie wollen Sie parse HTML in vb.net

Anzahl der Antworten 5 Antworten
Ich würde gerne wissen, ob es gibt eine einfache Methode zum Parsen von HTML in vb.net. Ich weiß, dass HTML nicht sctrict Untermenge von XML ist, aber es wäre schön, wenn es behandelt werden könnte, Weg. Gibt

Extrahieren von Text aus HTML-Datei mit Python

Anzahl der Antworten 29 Antworten
Möchte ich extrahieren Sie den text aus einer HTML-Datei mit Python. Ich will im wesentlichen die gleiche Ausgabe, die ich bekommen würde, wenn ich den text kopiert von einem browser aus und klebte es in den Editor.

C # - Beste Vorgehensweise zum Parsen der Webseite?

Anzahl der Antworten 8 Antworten
Hab ich gespeichert eine ganze Webseite ist html in einen string, und nun ich möchte zu greifen, die "href" - Werte aus den verbindungen, vorzugsweise mit der Fähigkeit, speichern Sie Sie auf verschiedenen Saiten später. Was ist

BeautifulSoup Grab Visible Webpage Text

Anzahl der Antworten 8 Antworten
Im Grunde will ich mit BeautifulSoup zu greifen, ausschließlich die sichtbaren text auf einer Webseite. Zum Beispiel, diese Webseite ist mein test-Fall. Und möchte ich hauptsächlich nur den text (Artikel) und vielleicht noch ein paar Registerkarte Namen

Textextraktion aus HTML Java

Anzahl der Antworten 8 Antworten
Ich arbeite an einem Programm, dass downloads von HTML-Seiten und wählt dann einige der Informationen und schreiben Sie es auf eine andere Datei. Möchte ich extrahieren Sie die Informationen, die intbetween die Absatz-tags, aber ich bekommen nur

BeautifulSoup verwenden, um ein HTML-Tag zu finden, das bestimmten Text enthält

Anzahl der Antworten 3 Antworten
Ich versuche, die Elemente in einem HTML-Dokument, enthalten die folgenden Muster-text: #\S{11} <h2> this is cool #12345678901 </h2> So, die bisherigen passen würden, durch den Einsatz von: soup('h2',text=re.compile(r' #\S{11}')) Und das Ergebnis wäre so etwas wie: [u'blahblah

"Smart" Art der Analyse und Verwendung von Website-Daten?

Anzahl der Antworten 12 Antworten
Wie wird man intelligent analysieren von Daten zurückgegeben, indem Sie die Suchergebnisse auf eine Seite? Zum Beispiel, sagen wir, ich möchte ein web-service, sucht für die online-Bücher durch das Parsen der Ergebnisseite viele Buch-Anbieter-websites veröffentlicht. Ich konnte

Was ist der beste Weg, um HTML in C # zu analysieren?

Anzahl der Antworten 14 Antworten
Ich bin auf der Suche nach einer Bibliothek/Methode zum Parsen einer html-Datei mit mehr html-spezifische Funktionen als generische xml-parsing-libraries. InformationsquelleAutor der Frage Luke | 2008-09-11

HTML auf dem iPhone analysieren

Anzahl der Antworten 9 Antworten
Kann jemand empfehlen, ein C oder Objective-C-Bibliothek für HTML-parsing? Es muss Griff chaotisch HTML-code, der nicht ganz bestätigen. Tut, wie eine Bibliothek vorhanden ist, oder bin ich besser dran, nur versuchen reguläre Ausdrücke verwenden? InformationsquelleAutor der Frage

Extrahiere einen Teil eines Regex-Matches

Anzahl der Antworten 9 Antworten
Ich soll ein regulärer Ausdruck zum extrahieren der Titel von einer HTML-Seite. Derzeit habe ich dieses: title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', '').replace('</title>', '') Gibt es einen regulären Ausdruck extrahieren Sie den Inhalt,

Optionen für HTML-Scraping?

Anzahl der Antworten 30 Antworten
Ich bin denken versuchen Schöne Suppe, ein Python-Paket für HTML-scraping. Gibt es andere HTML-scraping-Pakete sollte ich suchen? Python ist keine Anforderung, ich bin wirklich daran interessiert zu hören, über andere Sprachen. The story so far: Python Schöne