Strip-spezifischen HTML-tags mit Notepad++
Würde ich gerne hören, wenn jemand helfen kann, zu ersetzen, meine große XML-Datei HTML-markup.
Die XML-Datei hat mein eigenes schema und es ist alles in Ordnung. Aber ich brauche zu entfernen <sspan>, <style>, <div>
und Attribute in <p>
tags.
Für ein Beispiel, ich brauche, um alle <ul>, <ol>, <li>, <strong>, <a>, <img>
- und andere tags, aber entfernen <div>
(mit Parametern), <span>
(mit Parametern), und Attribute in <p>
tags.
Ich habe versucht, viele Beispiele von dieser Seite und vielen anderen Seiten. Aber die meisten von Ihnen nicht gearbeitet.
- Zuerst von allen, don nicht verwenden, regex zum Parsen von XML. That being said, können Sie Liste der einige der Dinge, die Sie versucht haben, die nicht gearbeitet habe?
Du musst angemeldet sein, um einen Kommentar abzugeben.
Zitat aus eine Antwort, die ich gestern gepostet:
Ich stark beraten Sie nicht verwenden regex für diese. Kein vernünftiger regex ist zur Arbeit zu gehen, oder vielleicht sogar nahe kommen, um zu arbeiten. Aber eine anständige XML-parser kann dies tun, ziemlich leicht. Ich bin mir nicht sicher, welche Programmiersprachen Sie haben Zugang zu, aber wenn Sie PHP verwenden, .NET oder einer anderen Programmiersprache, die Sie verwenden können, die oben genannten Parser zu finden
span
,style
,div
, undp
und entfernen von Attributen oder des gesamten tags.jQuery hat einige gute Funktionen zur DOM-manipulation wie Sie beschreiben, und Sie können es verwenden, um HTML generieren, die Sie dann Ausschneiden und einfügen.
Wenn Sie absolut muss regex verwenden, die Sie könnten versuchen, diese:
<\s*/?\s*(span|style|div)\b[^>]*?>
<\s*p\b[^>]*?>
<p>