Strip-spezifischen HTML-tags mit Notepad++

Würde ich gerne hören, wenn jemand helfen kann, zu ersetzen, meine große XML-Datei HTML-markup.

Die XML-Datei hat mein eigenes schema und es ist alles in Ordnung. Aber ich brauche zu entfernen <sspan>, <style>, <div> und Attribute in <p> tags.

Für ein Beispiel, ich brauche, um alle <ul>, <ol>, <li>, <strong>, <a>, <img> - und andere tags, aber entfernen <div> (mit Parametern), <span> (mit Parametern), und Attribute in <p> tags.

Ich habe versucht, viele Beispiele von dieser Seite und vielen anderen Seiten. Aber die meisten von Ihnen nicht gearbeitet.

Zuerst von allen, don nicht verwenden, regex zum Parsen von XML. That being said, können Sie Liste der einige der Dinge, die Sie versucht haben, die nicht gearbeitet habe?

InformationsquelleAutor Ayesh K | 2011-07-08

notepad++regex

4

Zitat aus eine Antwort, die ich gestern gepostet:

Ich habe gehört, einige sehr gute Dinge über
Schöne Suppe, HTML
Luftreiniger, und die HTML-Agility
Pack, die Nutzung von Python -, PHP -, und
.NETTO, jeweils. Vertrauen Sie mir--speichern
sich einige Schmerzen und diese zu nutzen
statt.

Ich stark beraten Sie nicht verwenden regex für diese. Kein vernünftiger regex ist zur Arbeit zu gehen, oder vielleicht sogar nahe kommen, um zu arbeiten. Aber eine anständige XML-parser kann dies tun, ziemlich leicht. Ich bin mir nicht sicher, welche Programmiersprachen Sie haben Zugang zu, aber wenn Sie PHP verwenden, .NET oder einer anderen Programmiersprache, die Sie verwenden können, die oben genannten Parser zu finden span, style, div, und p und entfernen von Attributen oder des gesamten tags.

jQuery hat einige gute Funktionen zur DOM-manipulation wie Sie beschreiben, und Sie können es verwenden, um HTML generieren, die Sie dann Ausschneiden und einfügen.

Wenn Sie absolut muss regex verwenden, die Sie könnten versuchen, diese:
- Muster: <\s*/?\s*(span|style|div)\b[^>]*?>
- Ersatz: (nichts)
- Muster: <\s*p\b[^>]*?>
- Ersatz: <p>
- Hi justin, ich hätte nie gedacht, ich werde so perfekte Antwort aus der Welt. Danke!!! Eigentlich habe ich versucht, 3 codes, die Sie erwähnt und ich weiß, dass einige von php, ich habe versucht php-Methode. Funktionierte perfekt! Auch, regex - wie ich jetzt damit einverstanden, dass RegEx ist keine gute Lösung, zu töten, wie HTML-tags, aber für diesen Fall. RegEx-Muster gearbeitet erheblich! Nochmals vielen Dank.
InformationsquelleAutor Justin Morgan

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.