Entfernen Sie alle HTML-tags aus einer Webseite

Ich bin dabei einige BASH-shell-scripting mit curl. Wenn mein curl Befehl gibt text, ich weiß ich habe einen Fehler. Dieser text zurückgegeben curl ist in der Regel in HTML. Ich dachte mir, dass wenn ich Streifen aus alle HTML-tags, konnte ich die Anzeige der resultierende text als Fehlermeldung.

Ich dachte an so etwas wie dieses:

sed -E 's/<.*?>//g' <<<$output_text

Aber ich bekomme sed: 1: "s/<.*?>//": RE error: repetition-operator operand invalid

Wenn ich ersetzen *? mit * ich nicht den Fehler (und ich bekomme keine text). Wenn ich entfernen Sie die globalen (g) Flagge, bekomme ich den gleichen Fehler.

Dies ist auf Mac OS X.

HTML kann nicht geparst werden, die mit regulären Ausdrücken. ein einfaches Beispiel: <img alt="<this is an image>" src="...">
Für eine Sekunde dachte ich Sie könnte die Verknüpfung zu einem meiner vielen Beiträge, wo ich an diesem Punkt. Die sed ist eigentlich nur ein macguffin. Ich wollte nicht, dass meine Frage geschlossen, weil ich zeigen nicht mein code. Was ich wirklich gehofft, jemand sagt "Hey, idiot, wenn du bist so ein Unix-Experte, warum nicht einfach mit *foo*? Das ist es, was *foo* ist wohl um zu verwendet werden. Es ist auf allen Unix - /Linux-Betriebssystemen." Ich würde es in Perl, aber Perl sind keine HTML-parsing-Module, und ich kann nicht installieren Sie Sie in dieser situation. Zu viele Systeme und ich glaube auch nicht kontrollieren.

InformationsquelleAutor David W. | 2013-07-24

5

sed nicht unterstützt nicht gierig.

versuchen
```
's/<[^>]*>//g'
```
- Sie könnten Recht haben. Es gibt einen flag in sed (entweder -E oder -r das wird sich auf erweiterte reguläre Ausdrücke, und die sed manpage Zusammenhang mit der re_format manpage, die Sprach über non-greedy-Qualifikanten. Ich kann nur noch wechseln, um die alte standby-Modus.
- Dieser arbeitete. Hier ist die übersetzte Fehlermeldung: Apache Tomcat/7.0.27 - Error report HTTP Status 404 - type Status reportmessage description The requested resource () is not available.Apache Tomcat/7.0.27. Das ist ziemlich viel, was ich wollte. Streifen aus der <head> und alle anderen tags, so kann ich sehen, dass 404 Fehlermeldung ein bisschen mehr sauber.
InformationsquelleAutor Kent
3

Vielleicht parser-perl-basierten Lösung?
```
perl -0777 -MHTML::Strip -nlE 'say HTML::Strip->new->parse($_)' file.html
```
Müssen Sie installieren Sie die HTML::Streifen Modul mit cpan HTML::Strip Befehl.

alternativ

können Sie ein standard-OS X-Dienstprogramm aufgerufen: textutil siehe die man-Seite
```
textutil -convert txt file.html
```
produzieren file.txt mit offenem html-tags, oder
```
textutil -convert txt -stdin -stdout < file.txt | some_command
```
Eine weitere alternative

Einige Systeme installiert, die lynx nur-text-browser. Sie können benutzen Sie:
```
lynx -dump file.html #or
lynx -stdin -dump < file.html
```
Aber in deinem Fall, verlassen Sie sich nur auf Reine sed oder awk Lösungen... IMHO.

Aber, wenn Sie perl - (und nur noch nicht die HTML::Streifen-Modul) das nächste ist immer noch besser als sed
```
perl -0777 -pe 's/<.*?>//sg'
```
da wird Sie den nächsten (multiline und gemeinsamen) tag auch:
```
<a
 href="#"
 class="some"
>link text</a>
```
- Das ist das problem. Dies wäre eine einfache Perl-problem wenn ich könnte installieren von Perl-Modulen. Leider ist mein Skript ist ein installer, und ich bin für die Installation von Paketen von Jenkins. Ich benutze eine Reihe von Skripts für Remote Förderung baut, Schloss baut, und Beschreibungen ändern der builds. Diese Skripte laufen auf Hunderten von Servern und ich kann nicht installieren von Perl-Modulen, die auf alle diese Server, und Sie sind nicht wirklich meine Maschinen. Ich würde bitten, ES zu tun. Ansonsten würde ich die Verwendung von HTML::Strip, und LWP, und schreiben Sie alles in Perl.
- siehe Bearbeiten - Hinzugefügt alternative OS-X-Lösung
- Das ist genau das was ich gesucht habe! Ein Unix-tool, das konvertieren das HTML-Zeug text. Ich habe nie textutil und es funktioniert Super. Leider unsere Server sind Linux. :-(. Ich habe mit Unix seit fast drei Jahrzehnten (Naja, nicht wirklich wahr, das erste Unix-wie Systeme, die ich arbeitete, waren Xenix), und ich konnte nicht denken, der eine einzige tool, das dies tun könnte. Ich mag textutil, und es ist in fast allen Unix-Plattformen, aber nie gemacht es auf Linux.
- Sie können nicht gewährleisten Befehl Verfügbarkeit auf Linux. Einige hat die installation einige Pakete, andere nicht. Die In Ihrer Frage ist OS X fügte der OS X Lösung. 🙂 Auf Linux (oder freebsd) es ist viel schwieriger, weil Sie nicht Vorhersagen können, welche tools installiert ist. Aber, hinzufügen, eine Linux-Lösung auch.. 🙂
InformationsquelleAutor jm666
1

Code für GNU sed:
```
sed '/</{:k s/<[^>]*>//g; /</{N; bk}}' file
```
Könnte dies scheitern, sollten Sie besser ein html-Analyse tool.

InformationsquelleAutor captcha

Wenn Sie möchten, entfernen Sie alle HTML-tags und auch alle script-tags (und deren Inhalt), können Sie die folgenden verwenden:

sed 's/<script>.*<\/script>//g;/<script>/,/<\/script>/{/<script>/!{/<\/script>/!d}};s/<script>.*//g;s/.*<\/script>//g' $file -i && sed '/</{:k s/<[^>]*>//g; /</{N; bk}}' $file -i && sed -r '/^\s*$/d' $file -i

InformationsquelleAutor Mohsen Abasi

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.