Regulären Ausdruck beginnend mit http und endend mit pdf?

Habe ich geladen, die gesamte HTML-Code einer Seite und wollen Sie zum abrufen aller URLs, die mit http beginnen und enden mit pdf. Ich schrieb das folgende, das hat nicht funktioniert:

$html = file_get_contents( "http://www.example.com" );
preg_match( '/^http(pdf)$/', $html, $matches );

Ich bin Recht neu in regex, aber von dem, was ich gelernt habe ^ markiert den Anfang eines Musters und $ markiert das Ende. Was mache ich falsch?

Don ' T parse HTML mit regulären Ausdrücken.
Er scheint auf der Suche nach link, das könnte sein, nur-text-link, so dass er nicht auf der Suche nach Parsen des HTML-Codes.
Im code-Beispiel, erste Zeile ist die Lesung eine vollständige HTML-Quelle und die zweite Linie verläuft die regex drüber. Bedeutet das nicht, dass er möchte, dass zum Parsen der HTML mit regex? Wie nennen Sie das?
Wie würden Sie die Suche nach URLs in normalen text? Sie sind zu Recht über die do-not-parse-html-mit-regex-Sache, aber der text-nodes enthalten können URLs auch. Sie können extrahieren Sie diese Informationen mit einem regulären parser. Sein Ansatz ist völlig vernünftig.
Ich war nicht bewusst, dass file_get_contents() ist in der Lage, nur Extrakt textnodes aus dem HTML-Dokument.
Das ist es nicht. Aber er versucht nicht zu analysieren, HTML mit diesem regex. Es gibt keinen Fall, wo die obige Konstrukt würde dazu führen, keine Probleme (im Gegensatz zu regex-html-parsing), so dass seine feine.
Ich Frage mich, wie man das so sagen kann. Aus dem code-Beispiel in der Frage, er will analysieren plain text HTTP-URIs, die aus einer HTML-Datei. Es gibt keine iteration über die textnodes des Dokuments, noch ist angegeben, welche Teile zum extrahieren der URLs.
Die OP sagt, dass er testen möchte alle URLs. Er nicht brauchen, um über HTML, da gibt es keine HTML-Sonderzeichen in einer URL zu löschen. Es stört nicht mit HTML-markup.
HTML-escape-text-Sequenzen (die stören würde), aber nicht genug, HTTP-URLs habe, die Flucht squences als gut. Die .pdf zum Beispiel könnte %-Triplett kodiert.

InformationsquelleAutor Weblurk | 2011-06-07

8

Müssen Sie mit den eingegebenen Zeichen übereinstimmen, in der Mitte der URL:
```
/\bhttp[\w%+\/-]+?pdf\b/
```
- \b entspricht einer Wortgrenze
- ^ und $ markieren den Anfang und das Ende der gesamten string. Möchten Sie nicht hier.
- [...] entspricht einem beliebigen Zeichen in der Klammer
- \w entspricht einem beliebigen Wortzeichen
- + entspricht einem oder mehreren der vorherigen match
- ? macht die + faul, anstatt gierig
- Danke. Ich verstehe es jetzt. Aber was meinst du mit "faul vs gierig"?
- Gierig bedeutet übereinstimmung so viele Zeichen wie möglich.
- Entspricht http is a doc here: http://abc.com/this.pdf
- Faul bedeutet so wenig Zeichen wie möglich.
- nicht --> debrauw.com/wp-content/uploads/NEWS%2520-%2520NEWSLETTERS/...
InformationsquelleAutor SLaks
4

preg_match( '/http[^\s]+pdf/', $html, $matches );

Entspricht http gefolgt von nicht ([^...]) Räume (\s) ein-oder mehrmals ( + ), gefolgt von pdf
- Ich glaube nicht, dass meine Antwort Wert ist, downvoting, kann ich keinen Grund sehen.
InformationsquelleAutor Billy Moon
1

Versuchen, diese,
```
preg_match( '/\bhttp\S*pdf\b/', $html, $matches );
```
Muss der Teil zwischen den http und die pdf, das ist, was .*? tut.

^ entspricht dem Anfang der Zeichenfolge und der $ Ende, aber das ist nicht das, was Sie wollen, Wann Sie wollen, zu extrahieren, die links aus einem längeren text.

\b passt auf Wortgrenzen

Update

für die Vollständigkeit, die .*? würde noch passen zu viel, so tauschten mit \S*

\S entspricht einem nicht-whitespace-Zeichen
- Warum die *?? Ist das nicht 2 Quantoren nach einander?
- gnur der ? macht die * ungreedy, da sonst die .* match bis in die Letzte pdf-Datei in den string
InformationsquelleAutor stema
1

Versuchen, diese:
```
preg_match_all('/\bhttp\S*?pdf\b/', $html, $matches);
```
Beachten Sie, dass Sie müssen verwenden Sie die preg_match_all()-Funktion hier, da Sie versucht, mehr als einmal vorkommen. ^ und $ wird nicht funktionieren, weil Sie gelten nur für die Linie oder die Datei Grenzen (abhängig von der verwendeten Modifikatoren).
- Ich weiß nicht, warum dies hab abgestimmt, aber ich würde gerne den Grund hören 😉
- Ich weiß es nicht. Du bist Recht zur Nutzung \b
InformationsquelleAutor jwueller
0

preg_match( '/^http.*pdf$/', $html, $matches );

ist besser (arbeiten)

InformationsquelleAutor gnur

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.