Auszug einer Tabelle aus einer HTML-Datei mit dem PowerShell-oder VBS

Habe ich eine zwei Teil-problem, das repariert werden muss. Ich werde versuchen, mein bestes, um es dann zu brechen, was ich "glaube" die Schritte sind.

Ich versuche zu bekommen eine bestimmte Tabelle in einer Webseite und die E-Mail an mich.

Im moment, was ich versuche ist die Verwendung von GNU\Win32 wget.exe (ich würde lieber mit der PowerShell nativ aber aus irgendeinem Grund konnte ich es nicht, vielleicht, weil die Methode, die ich verwendet wurde, konnte nicht Rendern der ASPX-Seite?)
Mit wget ich war in der Lage, eine lokale html-version der ASPX-Seite.

Nun habe ich schon versucht zu analysieren der Datei und extrahieren Sie eine bestimmte Tabelle. In diesem besonderen Fall die Tabelle beginnt mit <table border="0" cellpadding="2" cellspacing="2" width="300px"> und endet mit </table> und es gibt keine verschachtelten Tabellen.

Habe ich geworfen, einige regex-bei meinem problem (ja, ich weiß, regex kann nicht sein das tool, das ich hier brauchen), aber ohne Erfolg.

---Ammended
Hier ist, wo ich bin, jetzt...

$content = (new-object System.Net.WebClient).DownloadString($url)
$found = $content -cmatch '(?si)<table border="0" cellpadding="2" cellspacing="2" width="300px"[^>]*>(.*?)Total Queries</td>(.*?)</tr>(.*?)</table>'
$result = $matches[3]
$result

dies ist eine einmalige Aufgabe, oder etwas automatisiert werden, für einen längeren Zeitraum? Ist das für einen Kunden oder für einen admin?
Automatisierte. Admin.

InformationsquelleAutor Aaron Wurthmann | 2010-08-31

5

Ich getan habe, diese Art der Sache mit PowerShell. Es ist ziemlich einfach:
```
PS> $url = "http://www.windowsitpro.com/news/PaulThurrottsWinInfoNews.aspx"
PS> $content = (new-object System.Net.WebClient).DownloadString($url)
PS> $content -match '(?s)<table[^>]+border\s*=\s*"0"\s*.*?>(.*?)</table>'
True
PS> $matches[1]

        <tr>
          <snip>
        </tr>
```
Nur Ersatz width für border und 300px für 0 für Ihre regex z.B.:
```
PS> $content -match '(?s)<table[^>]+width\s*=\s*"300px"\s*.*?>(.*?)</table>'
```
Ih den Fall der übereinstimmenden mehreren Tabellen, die Sie haben, um Schalter aus -übereinstimmen, ist ein boolescher operator nur auf der Suche zu finden ein single match-Select-String die finden alle Spiele z.B.:
```
PS> $pattern = '(?s)<table[^>]+width\s*=\s*"300px"\s*.*?>(.*?)</table>'    
PS> $content  | Select-String -AllMatches $pattern | 
                Foreach {$_.Matches | $_.Group[1].Value}
```
Im wesentlichen werden alle Spiele in der$_ -.Matches-Auflistung. Wenn Sie wissen, dass die Tabelle ist immer der Dritte, den Sie zugreifen können, etwa so:
```
... | Foreach {$_.Matches[2].Group[1].Value}
```
- Schließen. Frustrierend in der Nähe auch. 🙂 Sieht aus wie es gibt zwei Instanzen des <table border="0" cellpadding="2" cellspacing="2" width="300px"> aber $matches zeigt nur 0 und 1 keine von denen sind, die Tabelle, die ich versuche zu packen. Was mache ich FALSCH? ARGHGHGHGGH!!! LOL! PS, Das ist für Ihre Hilfe so weit.
- In diesem Fall müssen Sie übereinstimmen alle Instanzen der Tabelle. Siehe die aktualisierte Antwort.
- Ich danke Ihnen, sir! Es bekam. 🙂
InformationsquelleAutor Keith Hill

Vor einer Weile schrieb ich eine Funktion namens Get-MarkupTag. Dies bringt Sie Weg von der Verwendung von regulären Ausdrücken direkt (es hat also unter der Decke). Es wird auch versucht, schalten Sie HTML in XML, an welcher Stelle immer aus den Daten ist Recht einfach.

Tun dies mit Get-MarkupTag, würden Sie etwas tun, wie

$webClient = New-Object Net.Webclient -Property @{UseDefaultCredentials=$true}
$html = $webClient.DownloadString($url)
$table = Get-MarkupTag -html $html -tag "table" |
    Where-Object { $_.Tag -like '<table border="0" cellpadding="2" cellspacing="2" width="300px">*' } |
    Select-Object -expandProperty Xml
$table.tr |  # Row
    Foreach-Object {
        $_.Td # Column
    }

Hoffe, das hilft

InformationsquelleAutor Start-Automating

0

Ich würde es angehen diese Weise mit VBScript.
- entfernen Sie alle doppelten Anführungszeichen mit einfachen Anführungszeichen, die nur für einfache Lesen & schreiben von code. also myHTMLString = Replace(myHTMLString, """", "'")
- festzustellen, ob die Datei enthält Ihre Tabelle. Klingt es nicht ein id oder name Attribut. Schade, aber wenn das fehlschlägt, verwenden Sie InStr zu bestimmen, wo die Ausgangsposition des Tisches ist. Dim tableStartsAt = InStr(myHTMLString,"<table border='0'") Vorsichtig mit allen Attributen hier wie bist du auf die Gnade der Tisch mit seinen Parametern bewegt, ohne dass Sie es bemerken! Vielleicht, wenn Sie keine passende Tabelle gefunden wird, E-Mail, DASS Statistiken an sich selbst als eine Warnung, dass einige Wartung erforderlich ist.
- nun, dass Sie die start-position der Tabelle zu finden sein end-tag. also Dim tableEndsAt = InStr(tableStartsAt,myHTMLString,"</table>")
- Holen Sie sich die HTML-string: Dim myTable = Mid(myHTMLString,tableStartsAt,tableEndsAt-tableStartsAt)
- legen, die in einem E-Mail senden mithilfe von VBScript. Sicherzustellen, dass Sie haben Mail.IsHTML = True. Hier ist ein weiterer VBScript senden von E-Mails Frage.
InformationsquelleAutor p.campbell
0

Ich dachte, die HuddleMasses Get-Web-cmdlets, hatte Sie die Möglichkeit zu Lesen, in Tabellen, als XML.

InformationsquelleAutor Eric W

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.