Bekommen Sie text von einer URL in ASP.NET

Ich bin auf der Suche nach einer zuverlässigen Methode der Extraktion von text gegeben, die web-Adresse, in ASP.NET/C#. Kann mir jemand zeigen Sie mir die richtige Richtung?

Auch, die web-Adresse könnte sagen, eine news-Website, die möglicherweise haben eine Menge von anzeigen und Menüs etc. Ich brauche einige intelligente Weise extrahiert nur die relevanten Inhalte. Nicht sicher, wie das getan werden könnte, wie würde ich definieren, was von Relevanz ist?

Sollte ich vielleicht Lesen Sie aus einem RSS-feed? Irgendwelche Gedanken dazu?

BEARBEITEN
Ich Habe ein Kopfgeld. Ich bin auf der Suche nach extrahieren "relevanten" text von einer URL. Von "relevant" meine ich, es soll ausschließen, dass die text-ads (und andere irrelevante info). Die Eingabe wird ähnlich einer news-Website. Ich brauche zu extrahieren nur die news info und loszuwerden, die überflüssigen text

HTML-Agility-Pack hilft hier?

InformationsquelleAutor Nick | 2010-02-13

asp.net c#

4

Sobald Sie heruntergeladen haben die Seite, und begann mit einer Bibliothek HTML Agility Pack Parsen der html, dann Ihre Arbeit beginnt 🙂

Screen scraping ist in zwei Teile gegliedert.

Erste der webcrawler (viele Informationen dazu auf der web -, und einfachen code, der hier mit WebClient von einigen anderen Antworten). Die Raupen Durchlaufen muss, links und download-Seiten. Wenn Sie das herunterladen einer Menge von Seiten und haben die start-url könnte man Rollen Sie Ihre eigenen, oder verwenden Sie eine vorhandene. Check-out Wikipedia für eine Liste von open-source webcrawlers/Spinnen.

Der zweite Teil ist das Parsen von html und zog nur den text, den Sie möchten, und lassen keinen Lärm (Header, Banner, Fußzeilen usw.). Nur das Durchlaufen der DOM ist einfach mit bestehenden Bibliotheken, herauszufinden, was zu tun mit dem, was Sie analysiert, ist der schwierige Teil.

Ich geschrieben habe ein wenig darüber, bevor Sie es an einem anderen ALSO Frage und es könnte Ihnen einige Ideen, wie Sie manuell greifen die Inhalte, die Sie wollen. Aus meiner Erfahrung gibt es keine 100% Möglichkeit zu finden, die wichtigsten Inhalte einer Seite, und mehr als oft nicht, müssen Sie manuell geben Sie es einige Hinweise. Der schwierige Teil ist, dass, wenn das html-layout der Seite ändern, dann Sie Ihre Bildschirm-Spachtel, scheitern.

Konnte Sie Statistiken und vergleichen Sie den html-von mehreren Seiten, um zu folgern, wo die anzeigen, Menüs usw sind, um diejenigen zu beseitigen.

Da Sie erwähnen, Nachrichten-Websites, es gibt zwei andere Ansätze, die soll leichter sein, gelten für diese Seiten im Vergleich zur Analyse aus dem text aus der ursprünglichen html.
1. Überprüfen, ob die Seite drucken url. ZB. ein link auf CNN gibt es eine entsprechende print-url, die viel einfacher zu analysieren.
2. Überprüfen, ob die Seite einen RSS-Darstellung, und wählen Sie die Artikel-text aus dem RSS-feed statt. Wenn der feed nicht alle Inhalte, es sollte Ihnen genug text zu suchen, den text in der vollständigen html-Seite.
Schauen Sie sich auch Der Einfache Weg zu Extrahieren Sinnvoll, Text aus einer Beliebigen HTML für die Eingabe, wie ein allgemeiner parser. Der code ist in Python, aber Sie sollten in der Lage sein, es zu konvertieren, ohne zu viel Mühe.

InformationsquelleAutor Mikael Svenson
3

Ich denke, Sie brauchen einen html-parser wie HTMLAgilityPack oder verwenden Sie den new born baby.. YQL, es ist ein neues tool entwickeln, die von Yahoo seine syntax ist wie SQL eine ist, und Sie müssen ein wenig wissen über XPATH...

http://developer.yahoo.com/yql/

Danke

InformationsquelleAutor Shakeeb Ahmed

Verwenden WebClient Instanz, um Ihr markup...

Dim Markup As String

Using Client As New WebClient()
    Markup = Client.DownloadString("http://www.google.com")
End Using

Dann verwenden Sie das HtmlAgilityPack zum Parsen der response mit XPath...

Dim Doc As New HtmlDocument()
Doc.LoadXML(Markup)

If Doc.ParseErrors.Count = 0 Then 
    Dim Node As HtmlNode = Doc.DocumentNode.SelectSingleNode("//body");

    If Node IsNot Nothing Then
        'Do something with Node   
    End If
End If

Schön zu sehen, einige VB hier. Ich werde beachten Sie jedoch, dass es ein C# - Tags in Frage. Sie würden wahrscheinlich mehr Stimmen, wenn Sie beide.
href="http://codechanger.com" >codechanger.com

InformationsquelleAutor Josh Stodola

0

Um die tatsächliche html-markup, versucht der WebClient-Objekt. So etwas bekommen Sie die markup:
```
System.Net.WebClient client = new System.Net.WebClient ();

        //Add a user agent header in case the 
        //requested URI contains a query.

        client.Headers.Add ("user-agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; .NET CLR 1.0.3705;)");

        Stream data = client.OpenRead ("http://www.google.com");
        StreamReader reader = new StreamReader (data);
        string s = reader.ReadToEnd ();
        //"s" now contains your entire html page source
        data.Close ();
        reader.Close ();
```
Dann wie isc-fausto gesagt, können Sie reguläre Ausdrücke zum Parsen der Ausgabe als erforderlich.
- Jede URL muss unterstützt werden durch diese app. Da der web-Seiten, die nicht dem gleichen Muster Folgen, ich bin nicht sicher, ob es überhaupt möglich ist für den parser, um intelligent zu sein in Strippen aus "irrelevanten" Daten
- Versuchen Sie reguläre Ausdrücke zum Parsen von HTML ist wirklich haarig und frustrierend. Verwenden Sie die HTML-Agility-Pack wenn Sie können - es ist ein DOM-parser, das ist WIRKLICH das, was Sie brauchen, um zu extrahieren von text aus HTML.
- Wo findet das agility-pack passen? Ich benutze Steves code zu packen, der HTML und führen Sie es durch das pack zu entfernen, den html-tags und-irrelevante Inhalte und get plain text? Gibt es eingebaute Methoden in der agility-pack zu tun? Dank
- Ich glaube, ich bin verwirrt, wie die agility-pack passt. Sobald ich die HTML mit dem code, wie verwende ich das pack, um die "relevanten" text-Inhalt?
- 1, weil Sie nicht using und -1 wieder auch nur daran zu denken Parsen von HTML mit regex
InformationsquelleAutor Steve Danner
0

Text summarization Techniken sind das, was Sie wahrscheinlich nach. Aber als grobe Heuristik, Sie können dies tun, mit ein paar relativ einfachen Schritten, solange Sie nicht das zählen auf 100% perfekte Ergebnisse, alle Zeit.

So lange, wie Sie nicht brauchen, um Unterstützung schreiben Systeme, die keine Leerzeichen zwischen Wörtern (Chinesisch, Japanisch), kann man ziemlich gute Ergebnisse bei der Suche nach den ersten paar Abfahrten von aufeinanderfolgenden Wort-Sequenzen mit einem beliebigen Schwellenwert, verbringen Sie ein paar Tage tuning. (Chinesisch und Japanisch erfordern würde, ein vernünftiges Wort zu brechen Identifikation-Algorithmus zusätzlich zu dieser Heuristik).

Ich würde beginnen mit einem HTML-Parser (HTML-Agility-Pack in Dotnet, oder so etwas wie Ruby ' s Nokogiri oder Python-BeautifulSoup wenn Sie möchten, zu Experimentieren mit den algorithmen in einer interaktiven Umgebung, bevor Sie Ihre C# - Lösung).

Reduzieren den Suchraum, Sequenzen von links mit wenig oder keinem umgebenden text mit Hilfe der Funktionen Ihres HTML-parser. Das sollte beseitigen die meisten Navigations-panels und bestimmten Arten von anzeigen. Man könnte dies weiter auszubauen suchen für die links, die Wörter nach Ihnen, aber keine Satzzeichen; dies würde zu beseitigen beschreibende links.

Wenn Sie beginnen, zu sehen, läuft der text gefolgt von "." oder "," mit sagen wir 5 oder mehr Worte (die Sie können versuchen, tuning später), Sie würden starten scoring, die als potentielle Satz oder satzfragment. Wenn Sie finden mehrere Läufe in einer Zeile, die hat ziemlich gute Chancen, der wichtigste Teil der Seite. Sie könnte die Partitur text mit <p> - tags um es ein bisschen höher. Sobald Sie haben eine ganze Menge von diesen Arten von Sequenzen, Die Chancen stehen ziemlich gut, dass du hast "Inhalt" und nicht als layout-Chrom.

Diese wird nicht perfekt sein, und Sie müssen möglicherweise um einen Mechanismus zur Einstellung der Heuristik basiert auf der problematischen Seite Strukturen, die Sie regelmäßig überprüfen. Aber wenn Sie etwas bauen, auf der Grundlage dieses Ansatzes sollte es ziemlich gute Ergebnisse, die 80% oder so der Inhalt.

Wenn Sie diese Art von Methode unzureichend ist, möchten Sie vielleicht zu schauen, Bayes-Wahrscheinlichkeit oder Hidden-Markov-Modellen als eine Möglichkeit zur Verbesserung der Ergebnisse.

InformationsquelleAutor JasonTrue
-4

Sobald Sie die web-Seiten, html-code, Sie konnten es verwenden von Regulären Ausdrücken,
- So etwas wie "\w+"
- Parsen von HTML mit regex ist unmöglich. Vergeuden Sie nicht Ihre Zeit. stackoverflow.com/questions/1732348/...
InformationsquelleAutor seFausto

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.