Parsen von HTML mit Hilfe von shell

Ich habe eine HTML mit vielen Daten und Teil ich bin interessiert an:

<tr valign=top>
<td><b>Total</b></td>
<td align=right><b>54</b></td>
<td align=right><b>1</b></td>
<td align=right>0 (0/0)</td>
<td align=right><b>0</b></td>
</tr>

Ich versuche es mal mit awk was jetzt ist:

awk -F "</*b>|</td>" '/<[b]>.*[0-9]/{print $1, $2, $3 }' "index.html"

aber was ich will ist zu haben:

Recht jetzt bin ich immer:

'<td align=right> 54'
'<td align=right> 1'
'<td align=right> 0'

Irgendwelche Vorschläge?

Ist er der 2.-Letzte null ausgegeben, weil es keine <b> tag oder weil es eine <td> Wert von 0 (0/0)?

InformationsquelleAutor Lenny | 2014-08-18

11
```
awk  -F '[<>]' '/<td /{ gsub(/<b>/, ""); sub(/.*/, "", $3); print $3 } ' file
```
Ausgabe:
```
54
1
0
0
```
Anderen:
```
awk  -F '[<>]' '
/<td><b>Total<\/b><\/td>/{
    while (getline > 0 && /<td /) {
        gsub(/<b>/, ""); sub(/.*/, "", $3)
        print $3
    }
    exit
}' file
```
- stellen Sie sicher, dass Sie Lesen und vollständig zu verstehen, alle Vorbehalte diskutiert awk.info/?tip/getline vor der Verwendung getline. In diesem Fall gibt es einfach keine Notwendigkeit für die getline Schleife an alle, eine einfache Flagge tun würde f{ subs(..); print; if (!/<td /) exit} /..Total/{f=1}
- Sie haben sich zu bewegen if (!/<td /) exit früher. Flagging ist ein guter Ansatz auch tatsächlich, aber es ist leichter zu kommen mit etwas, das nicht manchmal. Kennzeichnen ist fertig, wenn Sie bereits versuchen, Ihren code mehr glatt oder effizient. Noch einmal über getline, getline > 0 ist völlig sicher, und sicher genug, Lesen Sie sich die Gebrauchsanweisung sorgfältig durch. Es ist ziemlich klar, wie die verschiedenen Schreibweisen unterscheiden sich in Funktion. Das einzige was wirklich zu beachten ist Den getline Befehl gibt 1 bei Erfolg, 0 bei Dateiende und -1 auf einen Fehler.
- Ja, der test auf !/<td / wäre erst gekommen. Betrachten Sie beide Ansätze-und jetzt fügen Sie eine Anforderung, die Sie drucken müssen jeder Zeile von Zeile 1 bis /<td / Zeile in eine Datei namens "foo" für die Fehlersuche. Beachten Sie, dass wenn Sie die getline Ansatz, den Sie brauchen, um Ihre print > "foo" an 2 stellen in der Erwägung, dass mit dem normalen Ansatz, nur dass die awk-Schleife tun, was Sie tut, Sie müssen nur die print > "foo" an einem Ort. Vermeidung von getline, wenn es nicht notwendig ist nicht nur über das schreiben von sicherem code, sondern auch um schreiben von code, können erhalten und ausgebaut werden leicht.
- Ich bin nicht einverstanden, etwa, dass es leicht erweitert. Sehen Sie diesen code hatte ich vor langer Zeit geschrieben, wo die Fahnen (über getline) kann kaum anwenden: sourceforge.net/p/playshell/code/ci/master/tree/loader/.... Das Letzte update habe ich gemacht, war nur um sicherzustellen, dass getline 1 zurückgibt, und nicht nur ungleich null.×Kommentare können nur bearbeitet werden, für 5 Minuten×Kommentare können nur bearbeitet werden, für 5 Minuten×Kommentare können nur bearbeitet werden, für 5 Minuten
- Ich gab nur ein einfaches, typisches Beispiel von nicht-getline code einfacher zu erweitern. In jedem Fall, mein Kommentar gerichtet war die OP, jetzt ist er bewusst von der vor - /Nachteile und unterschiedliche Meinungen über die angemessene Verwendung getline. Ich schaute auf Ihre compiler-code, und es könnte geschrieben wurden, mehr robust und prägnant, ohne getline. Nur ein Scherz - natürlich werde ich nicht Lesen, Hunderte Zeilen von awk-code und versuchen Sie herauszufinden, was es tut und was es würde Aussehen, ohne getline oder jede andere Art von Analyse auf Sie.
- Klar zu sein - ich sage nicht nie verwenden Sie getline. Ich verwende es selbst, wenn ich möchte, sagen, Lesen Sie in einer mapping-Datei, in der BEGIN-Abschnitt vor der Analyse mehrere Dateien in ein anderes format oder tun recursive-descent-inlining von Dateien mit include Richtlinien. Ich sage nur, stellen Sie sicher, Sie sind sich bewusst, all die Vorsichtsmaßnahmen, wenn Sie eine Entscheidung zu verwenden oder nicht, und verwenden Sie es nicht, wenn es nur so einfach oder einfacher zu bedienen awks normalen implizite Datei-Lesen-Schleife, weil neben all der Vorbehalte, die es in der Regel macht das nächste, was Sie tun möchten, erschweren.
InformationsquelleAutor konsolebox
27

awk ist kein HTML-parser. Verwenden xpath oder sogar xslt für, die. xmllint ist ein commandline-tool, welches in der Lage ist zum ausführen von XPath-Abfragen und - xsltproc kann verwendet werden, um die XSL-Transformationen. Beide tools gehören zum Paket libxml2-utils.

Außerdem können Sie mit einer Programmiersprache, die in der Lage ist, zu analysieren, HTML
- Niemand sagte, es war. Auf jeden Fall kann Sie (leicht) analysieren einzelne Stücke von Daten mit awk obwohl.
- Nein, das können Sie nicht. Regex ist ein regulärer Ausdruck, Sprache, aber XML ist Kontext-frei. Es ist somit theoretisch unmöglich, regex zum Parsen von XML.
- es ist wirklich nicht, könnte es unglaublich schwer(nicht unmöglich) zu analysieren, ganze Segmente effektiv, aber für das abrufen, kleine Stücke von Daten, wie die Frage fragt, die eigentlich extrem leicht mit regex. Jeder springt auf den nicht-parse-XML - /XHTML - /HTML-Zug aufzuspringen, ohne zu verstehen, das argument in Erster Linie, wie Sie sehen können, von der alle upvotes auf diese "Antwort". Blick auf die akzeptierte Antwort, die klar analysiert die Daten in Frage.
- Ich habe nicht "sprang auf einen fahrenden Zug". Ich habe gerade beschrieben, meine persönliche Erfahrung. Natürlich sind Sie frei, um zu sehen eine HTML/XML-Dokument nur als ein Stück text, und verwenden Sie regexes, um Informationen zu extrahieren. Btw, dies ist, was ein DOM-parser tatsächlich tun. Allerdings, meisten real-world use cases sind entweder mehr komplexe, fragile vor, änderungen oder einfach nur Variationen der input-format, und daher schwer zu pflegen - in einer realen Welt-Projekt. Ich bin sicher, dass die up-Wähler machten ähnliche Erfahrungen.
- Sie haben einen gültigen Punkt, und es ist nicht zu leugnen, dass es besser ist, zu Parsen mit einem XML/HTML-parser in der realen Welt-Projekte.Es ist nur ich denke, das ist nicht wirklich eine Antwort auf die Frage, die OP gefragt und wäre besser geeignet als ein Kommentar.Diese Frage konnte gelöst werden mit regex und es gibt keine Notwendigkeit für die OP zum herunterladen eines HTML-parser. Als der Zug Kommentar meinte ich die upvotes, anstatt Ihre eigentliche Antwort.
- Es ist unmöglich, um korrekt zu Parsen von XML mithilfe von regex, nicht nur schwierig. Der Kommentar-Abschnitt ist zu kurz für ein Beweis, aber die chomsky-Hierachie ist gutes Stichwort für die weitere Forschung. Dies ist wissenschaftlich erwiesen. Nur weil es funktioniert in diesem Fall nicht bedeutet, dass es richtig ist. Das problem ist, dass es aussieht richtig, und dies ist der Grund, warum so viele Menschen versuchen zu verwenden, regex für XML-parsing - Und weil das falsch ist, und öffnet Sie auf eine Welt der Schmerzen, so viele Menschen, die Rat gegen Sie. Recht so.
- Geben Sie mir einen link, der beweist, dass es unmöglich ist, um XML zu Parsen mit awk ? Vielleicht ist es unmöglich, mit abgespeckte basic regex, aber es ist definitiv nicht unmöglich mit awk, wo Sie verwenden können, Schalter und Funktionen, um effektiv zu verfolgen, wie viele Klammern drin sind.
- href="https://stackoverflow.com/questions/6751105/why-its-not-possible-to-use-regex-to-parse-html-xml-a-formal-explanation-in-la" title="warum es nicht möglich mit regex zu Parsen von html-xml eine formale Erklärung in la">stackoverflow.com/questions/6751105/...
- Es wird kein Beweis dass. Natürlich können Sie schreiben einen HTML-parser in awk da es ist Turing-vollständig. Auch Sie müssen verstehen, dass das extrahieren von Informationen aus einer text-Datei, und voll Verständnis und der Darstellung eines document sind zwei verschiedene Dinge. Aber hey, würde ich immer noch verwenden Sie eine ready-to-use-parser anstelle des Schreibens einer benutzerdefinierten man wieder und wieder mit awk..
- ich auch. Wie ich schon sagte, es ist definitiv die bessere option, nur versuchen, den Menschen bewusst machen, dass es möglich ist und nicht nur blind zu Folgen, etwas, was Sie gesehen haben
- ah, ich sehe. Wenn awk ist turing-vollständig sind Sie in der Tat richtig (ich jetzt nicht viel über awk, dachte ich es ist nur auf regulären Sprachen). Also, um es zusammenzufassen: nicht reguläre Ausdrücke verwenden, um XML zu Parsen. Sie können awk um XML zu Parsen, aber man sollte nicht (aus dem Grund erwähnt in der Antwort, und hier in den Kommentaren).
- Antwort ist richtig, Sie sollten mit den richtigen tools für den job. Sonst bist du weniger ein Handwerker und mehr ein amateur.
InformationsquelleAutor hek2mgl
2
```
$ awk -F'<td[^>]*>(<b>)?|(</?b>)?</td>' '$2~/[0-9]/{print $2+0}' file
54
1
0
0
```
- Gute Antworten begleiten, code-Beispiele mit eine Erklärung für die zukünftigen Leser. Während die person, die diese Frage stellen kann, verstehe Ihre Antwort, die erklärt, wie Sie kamen, es wird helfen, unzählige andere.
- Das ist gut, aber es dauert etwa 15 Sekunden im Durchschnitt Kurbel eine Antwort und ein paar Minuten, um es zu dokumentieren, so dass ich Zeit haben, um die erstere, aber nicht letztere für jede Frage, vor allem diejenigen, die IMHO selbstverständlich sind. Wenn jemand Fragen hat, ich bin glücklich, Sie zu beantworten.
InformationsquelleAutor Ed Morton
2

Sollten Sie wirklich nutzen, um einige echte HTML parser für diesen job, wie:
```
perl -Mojo -0777 -nlE 'say [split(/\s/, $_->all_text)]->[0] for x($_)->find("td[align=right]")->each'
```
Drucke:
```
54
1
0
0
```
Aber für diese müssen Sie perl installiert und Mojolicious-Paket.

(es ist einfach zu installieren mit:)
```
curl -L get.mojolicio.us | sh
```
InformationsquelleAutor jm666
1

HTML-XML-utils

Können Sie verwenden htmlutils für die Analyse gut formatierte HTML-/XML-Dateien. Das Paket umfasst eine Vielzahl von binary-tools zu extrahieren oder die Daten ändern. Zum Beispiel:
```
$ curl -s http://example.com/ | hxselect title
<title>Example Domain</title>
```
Hier ist das Beispiel mit den bereitgestellten Daten:
```
$ hxselect -c -s "\n" "td[align=right]" <file.html
<b>54</b>
<b>1</b>
0 (0/0)
<b>0</b>
```
Hier das Letzte Beispiel mit Strippen aus <b> tags:
```
$ hxselect -c -s "\n" "td[align=right]" <file.html | sed "s/<[^>]\+>//g"
54
1
0 (0/0)
0
```
Weitere Beispiele, check die html-xml-utils.

InformationsquelleAutor kenorb
1

BSD/GNU grep/ripgrep

Für einfaches extrahieren, die Sie verwenden können grep zum Beispiel:
- Dein Beispiel mit grep:
```
$ egrep -o "[0-9][^<]\?\+" file.html
54
1
0 (0/0)
0
```
  und mit ripgrep:
```
$ rg -o ">([^>]+)<" -r '$1' <file.html | tail +2
54
1
0 (0/0)
0
```
- Extrahieren äußeren html-Code H1:
```
$ curl -s http://example.com/ | egrep -o '<h1>.*</h1>'
<h1>Example Domain</h1>
```
Andere Beispiele:
- Extrahieren den Körper:
```
$ curl -s http://example.com/ | xargs | egrep -o '<body>.*</body>'
<body> <div> <h1>Example Domain</h1> ...
```
  ^{Statt xargs Sie können auch tr '\n' ' '.}
- Für mehrere tags, siehe: Text zwischen zwei tags.
Wenn Sie den Umgang mit großen Datenmengen, sollten Sie die Verwendung ripgrep, die hat eine ähnliche syntax, aber es ist ein schneller Weg, da es geschrieben in Rost.

InformationsquelleAutor kenorb
0

ex/vim

Weitere erweiterte parsing -, können Sie in-place-Editoren wie ex/vi, wo können Sie wechseln Sie zwischen den entsprechenden HTML-tags, Auswahl/löschen innere/äußere-tags, und Bearbeiten Sie den Inhalt in-place.

Hier ist der Befehl:
```
$ ex +"%s/^[^>].*>$[^<]\+$<.*/\1/g" +"g/[a-zA-Z]/d" +%p -scq! file.html
54
1
0 (0/0)
0
```
Dies ist, wie der Befehl funktioniert:
- Verwenden ex in-place-editor zu ersetzen, auf allen Linien (%) von: ex +"%s/pattern/replace/g".
  
  Die substitution pattern besteht aus 3 teilen:
  - Wählen Sie aus dem Anfang der Zeile, bis > (^[^>].*>) für die Entfernung, direkt vor der 2. Teil.
  - Wählen Sie unsere wichtigsten Teil bis < (([^<]+)).
  - Wählen, alles andere nach < für die Entfernung (<.*).
  - Ersetzen wir die ganze entsprechende Zeile mit \1 bezieht sich auf das Muster innerhalb der Spitzen Klammern (()).
- Nach der substitution, entfernen wir alle alphanumerischen Zeilen mithilfe global: g/[a-zA-Z]/d.
- Schließlich, drucken Sie den aktuellen Puffer auf dem Bildschirm, indem +%p.
- Dann schweigend (-s) beenden ohne speichern (-c "q!"), oder speichern Sie in die Datei (-c "wq").
Wenn getestet, um die Datei ersetzen in-place ändern -scq! zu -scwq.

Hier ist ein weiteres einfaches Beispiel, das entfernt die style-Tags aus dem header und druckt den analysierten Ausgabe:
```
$ curl -s http://example.com/ | ex -s +'/<style.*/norm nvatd' +%p -cq! /dev/stdin
```
Jedoch, es ist nicht empfohlen zu verwenden regex zum Parsen von html-daher für den langfristigen Ansatz, den Sie verwenden sollten, die entsprechende Sprache (wie Python, perl oder PHP DOM).

Siehe auch:
- Wie zu analysieren hundert HTML-Quellcode-Dateien in der shell?
- Extrahieren von Daten aus HTML Tabelle in shell-Skript?
InformationsquelleAutor kenorb

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Parsen von HTML mit Hilfe von shell

`HTML-XML-utils`

BSD/GNU `grep`/`ripgrep`

`ex`/`vim`

HTML-XML-utils

BSD/GNU grep/ripgrep

ex/vim

`HTML-XML-utils`

BSD/GNU `grep`/`ripgrep`

`ex`/`vim`