Regex: Match-html-tag nur, wenn es mit einer bestimmten Klassen-id

Match ein html-tag mit Hilfe von perl regex in php.

Wollen den tag zu entsprechen, wenn es enthält "class= "details" irgendwo in der öffnen-tag.

Wollen match <table border="0" class="details"> nicht <table border="0">

Schrieb dieses, um es anzupassen:

'#<table(.+?)class="details"(.+?)>#is'

Den <table(.+?) schafft ein problem, da es mit den ersten table-tag es findet nur stoppen das Spiel, wenn es findet class="details" egal, wie weit unten der code, auf den es Auftritt.

Ich denke, diese Logik wäre fix mein problem:

"Match <table aber nur, wenn es enthält class="details" vor der nächsten >"

Wie kann ich dies Schreibe?

Haben Sie versucht, mit Hilfe eines HTML-parsers. Auch, stackoverflow.com/questions/1732348/...
Chris, ich brauchen, um zu erreichen, zwei Dinge: 1. lernen von regulären Ausdrücken 2. tatsächlich erreichen die oben angegebene Aufgabe nach genug lernen. Reguläre Ausdrücke sind unzureichend für diese Aufgabe. Ihre Antwort erfüllt mein zweites Ziel. Viel Dank
HTML und regexes ist wie Cäsium und Wasser... Sie warten für eine Katastrophe, wenn Sie beides vermischen. Sie sind nicht nur unzureichend für diese Aufgabe... Es ist geradezu gefährlich, verwenden Sie für diese Aufgabe. Betrachten Sie einen anderen Weg, um zu lernen, reguläre Ausdrücke, da dies nicht einem gültigen use-case, für Sie sowieso.

InformationsquelleAutor JMC | 2010-07-30

php regex

3

Während der regulären Ausdrücke kann gut für eine große Vielzahl von Aufgaben, ich finde es fällt in der Regel kurz beim Parsen von HTML-DOM. Das problem bei HTML ist, dass die Struktur Ihres Dokuments ist so variabel, dass es schwer ist zu genau (und mit genau meine ich 100% - Erfolg-rate mit keine falsch positiven) extrahieren Sie einen tag.

Was ich empfehlen Sie tun, ist mit einem DOM-parser wie phpQuery und verwenden Sie es als solche:
```
function get_first_image($html){
    $dom = phpQuery::newDocument($html);

    $first_img = $dom->find('img:first');

    if($first_img !== null) {
        return $first_img->attr('src');
    }

    return null;
}
```
Manche mögen denken, das ist übertrieben, aber am Ende wird es einfacher sein, zu warten und ermöglicht auch eine bessere Erweiterbarkeit. Beispielsweise die Verwendung des DOM-parsers, habe ich auch noch das alt-Attribut.

Einem regulären Ausdruck könnte erarbeitet werden, um das gleiche Ziel erreichen, aber nur begrenzt in der Weise, dass es zwingen würde, die alt Attribut werden nach der src oder das Gegenteil, und um diese Einschränkung zu überwinden möchte hinzufügen, mehr Komplexität des regulären Ausdrucks.

Berücksichtigen Sie außerdem die folgenden. Richtig mit einer <img> - tag mit regulären Ausdrücken und bekommen nur die src Attribut (erfasst in der Gruppe 2), müssen Sie den folgenden regulären Ausdruck:
```
<\s*?img\s+[^>]*?\s*src\s*=\s*(["'])((\\?+.)*?)\1[^>]*?>
```
Dann wieder, die oben genannten kann fehlschlagen, wenn:
- Das Attribut oder tag-name ist in die Hauptstadt und die i modifier nicht benutzt.
- Zitate werden nicht verwendet, um die src Attribut.
- Ein weiteres Attribut, dann src verwendet die > Zeichen irgendwo in Ihrem Wert.
- Einem anderen Grund habe ich nicht vorgesehen.
Also nochmal, einfach nicht mit regulären Ausdrücken Parsen einen dom-Dokument.

Einfaches Beispiel, wie Ihr problem zu lösen mit phpQuery:
```
$dom = phpQuery::newDocument($html);
$matching_tags = $dom->find('.details');
```
- Problem von HTML ist nicht so, dass ist "variable", aber das ist SGML die Eltern von XML-und diese Sprachen sind nicht parseable mit Turing-Maschine
- die Chancen stehen gut, wenn jemand versucht zu Parsen von html mit regex, Sie wissen nichts über Turing-Maschinen...
- Natürlich, einfache Fälle sind lösbar, aber Sie können nicht sicher sein, dass Ihre Lösung funktioniert immer. XML-Werkzeuge sind sicher.
- Als Neuling, ich denke, deine Antwort macht Sinn. Verdeckte die Quelle html zu xml und Parsen der xml-Daten über einen parser, wie z.B. xpath? So wertet er die gleiche, unabhängig von den Bedingungen?
- Sie müssen nicht konvertieren, nichts. Sie haben ein Dokument so erstellen Sie einen XML-Baum über ihm. XPath-parser nicht, es wird der query-Sprache. Parser für XML-DOM und SAX. XPath ist eine query-Sprache. Nachdem Sie bauen einen Baum, dann können Sie diese Abfrage ausführen über diesen Baum und es gibt alle tags, welche Spiele Ihre Regel
- Danke, für die Aufklärung meiner Verwirrung. Deine Lösung scheint die beste Theorie für die Lösung des Problems. Andrew Moore ist gut für php-spezifisch, da die Antwort bietet php-Beispiele und wahrscheinlich bekommt den job getan. Möglicherweise nicht eine 100% der Zeit wie du sagtest. Vielen Dank für beide Antworten.
- phpQuery ist einfach ein Klasse-Bibliothek über XPath.
- WOW, Sie stellte mir eine große Bibliothek. Mein code, mit regexes und so, ging von 10 Zeilen bis 4. ICH DANKE IHNEN, SIR. phpQuery ist die beste überraschung in ein paar Tagen.
- woting dies ab, weil die Frage eindeutig Regex.
InformationsquelleAutor Andrew Moore
1

Werden Sie wahrscheinlich brauchen eine Positive Look-Ahead in irgendeiner form, als eine sehr grobe eine, die hat eindeutig Ihre Grenzen...
```
<table(?=[^>]*class="details")[^>]*>
```
- AFAIK lookahead/behind tun keine Unterstützung für regex mit variable Größe passen. Also das wird nicht funktionieren.
- Dies funktioniert in PHP für mich: <?php echo preg_match('/<table(?=[^>]*class="details")[^>]*>/','<table border="0" class="details">'); ?>
- -1: HTML und regexes ist wie Cäsium und Wasser... Sie warten für eine Katastrophe, wenn Sie beides vermischen. Bitte siehe diese Antwort
- Dank Scuzzy, ich war kämpfen mit positive lookaheads und dies funktioniert gut für meinen bestimmten Zweck, selbst wenn es schlecht ist für die Aufgabe. Für alle anderen die das hier Lesen und versuchen zu konsumieren, html, Lesen Andrew Moore ' s Warnung und auch nicht mit Regex. Es ist nicht die richtige Lösung.
- Regexes sind nicht die beste Lösung für das Parsen von HTML. Aber so lange, wie Sie erkennen das problem, es gibt keinen Schaden getan, wenn Sie Sie verwenden. Möglicherweise gibt es Probleme, wie nicht übereinstimmende bestimmte Daten, aber so? Ich verstehe dich nicht downvoting eine perfekt gültige Lösung, wenn es nicht verwenden Sie Ihre Wahl von Energieversorgern.
InformationsquelleAutor Scuzzy
1

HTML-Code nicht parseable ( zuverlässig ) mit regulären Ausdrücken. Es gibt einige einfache Fälle, die eine Lösung haben, aber Sie sind Ausnahmen. Ich denke, dass Ihr Fall ist unlösbar mit regex, aber ich bin nicht sicher,

Sollten Sie mit der Verwendung von XML-tools und XML-Parser wie XPath für die Suche und testen von Bedingungen. Es ist sehr einfach zu schreiben, der Ausdruck passt zu Ihrem Fall. Ich weiß nicht, wie das erstellen von XML-Baum und ausführen von XPath-Abfragen in PHP XPath-Ausdruck ist
```
//table[@class='details']
```
InformationsquelleAutor Gaim
0

Könnten Sie eventuell einen Regex verwenden, wie die folgenden:
```
<\/?table[^>]*(class="details")*>
```
Aber die oben genannten user sind richtig im Ausspruch, dass es wäre viel besser für die Verwendung eines xml/html-type-parser finden Sie Ihren Artikel.

InformationsquelleAutor PandaDev

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.