Wie zu Lesen, die Inhalte der Website in c#?

Möchte ich auf der website Lesen text ohne html-tags und Header. ich brauche nur den text, der angezeigt wird im web-browser.

ich nicht brauchen, wie diese

<html>
<body>
bla bla </td><td>
bla bla 
<body>
<html>

ich brauche nur den text "bla bla bla bla".

Habe ich verwendet der webclient und httpwebrequest-Methoden zum abrufen des HTML-Inhalts und zum aufteilen der empfangenen Daten, aber es ist nicht möglich, denn wenn ich die website die tags ändern kann.

Also gibt es eine Möglichkeit um nur den angezeigten text in die website anagrammatically?

Ich denke, du brauchst einen HTML-parser und-wenn Sie haben die Kontrolle der Quelltext der Seite, zum hinzufügen einer id zu dem element, das Sie möchten, zu bekommen, damit man es mit einer Methode wie getElementById ist der parser.
haben Sie eine link Beispiel für ein HTML-parser?

InformationsquelleAutor Azeem Akram | 2012-05-14

c#html httpwebrequest streamreader webclient

4

Hier ist, wie Sie es tun würde, mit dem HtmlAgilityPack.

Ersten Ihrem Beispiel-HTML:
```
var html = "<html>\r\n<body>\r\nbla bla </td><td>\r\nbla bla \r\n<body>\r\n<html>";
```
Laden Sie es (als ein string, in diesem Fall):
```
var doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(html);
```
Wenn Sie es aus dem Internet ähnlich:
```
var web = new HtmlWeb();
var doc = web.Load(url);
```
Nun wählen Sie nur text-Knoten mit nicht-whitespace-Zeichen und zuschneiden.
```
var text = doc.DocumentNode.Descendants()
              .Where(x => x.NodeType == HtmlNodeType.Text && x.InnerText.Trim().Length > 0)
              .Select(x => x.InnerText.Trim());
```
Können Sie diese als einzelne verknüpfte Zeichenfolge, wenn Sie mögen:
```
String.Join(" ", text)
```
Natürlich wird dies nur funktionieren, für einfache web-Seiten. Etwas komplexer wird auch return-Knoten mit den Daten, die Sie eindeutig nicht wollen, wie javascript-Funktionen, etc.
- toll es hat funktioniert... vielen lieben Dank...
- :: wie kann ich auf den text von index zu index, wie ich mit string-array in der Schleife, wie 'for(i=0;i<Größe;i++) { string index=array[i] }'
- Sie können es gegen text direkt: foreach (var index in text) { // do something with index }. Alternativ dazu können Sie eine text.ToArray(); und behandeln es als ein array.
InformationsquelleAutor yamen
5

Brauchen Sie spezielle HTML-parser. Der einzige Weg, um den Inhalt der so nicht reguläre Sprache.

Finden Sie unter: Was ist der beste Weg zum Parsen von html in C#?
- es ist nicht, was ich will....
- Aber dies ist ein Weg, können Sie bekommen, was Sie fordern!
- mit HtmlAgilityPack können Sie die Werte, die Sie interessiert sind in. Am Ende dieser ist ein Parser.
InformationsquelleAutor Tigran

public string GetwebContent(string urlForGet)
{
    //Create WebClient
    var client = new WebClient();
    //Download Text From web
    var text = client.DownloadString(urlForGet);
    return text.ToString();
}

InformationsquelleAutor user3059036

-1

Ich denke dieser link kann Ihnen helfen.

///<summary>
///Remove HTML tags from string using char array.
///</summary>
public static string StripTagsCharArray(string source)
{
char[] array = new char[source.Length];
int arrayIndex = 0;
bool inside = false;

for (int i = 0; i < source.Length; i++)
{
    char let = source[i];
    if (let == '<')
    {
    inside = true;
    continue;
    }
    if (let == '>')
    {
    inside = false;
    continue;
    }
    if (!inside)
    {
    array[arrayIndex] = let;
    arrayIndex++;
    }
}
return new string(array, 0, arrayIndex);
}

reguläre Ausdrücke sollten nicht verwendet werden, um zu analysieren, HTML
Der Autor Ihnen 3 Methoden. Das Letzte (StripTagsCharArray) ist zu empfehlen
Wie denken Sie, diese Methode gelingen wird, wenn es auf eine if-Anweisung innerhalb eines eingebetteten JavaScript-like', wenn x < 4'? Die Antwort ist: nicht sehr gut. Die richtige Antwort ist der eine, die nahelegt, dass HtmlAgilityPack.

InformationsquelleAutor R4j

-2

//Reading Web page content in c# program
//Specify the Web page to read
WebRequest request = WebRequest.Create("http://aspspider.info/snallathambi/default.aspx");
//Get the response
WebResponse response = request.GetResponse(); 
//Read the stream from the response
StreamReader reader = new StreamReader(response.GetResponseStream()); 
//Read the text from stream reader
string str = reader.ReadLine();
for(int i=0;i<200;i++)
{
   str += reader.ReadLine();

}

Console.Write(str);

Du kannst nicht behandeln wie eine einfache HTML-text oder mit regualr expressions, es ist nicht ein normaler text oder Sprache.
Auf diese Weise erhalten Sie noch alle markup-Symbole.
könntest du bitte erläutern Sie das Letzte Schleife, warum Lesen Sie es nur 200 Indizes.

InformationsquelleAutor Jaiff

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.