Extrahieren Sie die HTML-tag-Daten mit sed

Möchte ich extrahieren von Daten zwischen den bekannten HTML-tags. Zum Beispiel:

Hello, <i>I<i> am <i>very</i> glad to meet you.

Werden sollte:

'I

very'

So, ich habe etwas gefunden, das funktioniert für fast tun. Leider, es extrahiert nur den letzten Eintrag.

sed -n -e 's/.*<i>\(.*\)<\/i>.*/\1/p'

Nun kann ich anfügen, dass ein Ende-tag  mit einem newline-Zeichen und das funktioniert gut. Aber gibt es einen Weg, es zu tun mit nur einem sed-Befehl?

InformationsquelleAutor Nic | 2010-08-27

3

Geben diesem einen Versuch:
```
sed -n 's|[^<]*$[^<]*$[^<]*|\1\n|gp'
```
Und deinem Beispiel fehlt ein "/":
```
Hello, I am very glad to meet you.
```
InformationsquelleAutor Dennis Williamson
2

Versuchen Sie dies:
```
$ sed 's/<[^>]*>//g' file.html
```
InformationsquelleAutor lattimore

$ awk -vFS="<.[^>]*>" '{for(i=2;i<=NF;i+=2)print $i}' file
I
very

InformationsquelleAutor ghostdog74

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.