PHP Regex HTML - URL Extrahieren

Ich versuche zu extrahieren mehrere URLs aus HTML-Datei mit regex.
Es gibt andere URLs in die Datei, gehen Sie nur Muster, die ich habe ist "tableentries." und ""

HTML-code Beispiel:

<tr class="tableentries2">
  <td>
    <a href="http://example.com/all-files/files/00000000789/">Click Here</a>
  </td>

PHP ich schrieb:

$html = "value of the code above"
if(preg_match_all('/<td>.*</td>/', $html, $match)){
foreach($match[0] as $x){

echo $x . "<br>";

}}

Was ist Ihre Frage genau? was bedeutet dieser code erhalten Sie? warum hat es nicht funktioniert?
Anführungszeichen fehlen, um Ihre HTML-Attribute. <tr class="tableentries2"> ... <a href="http://example.com/..."> (bearbeitet deine Frage)
Vielleicht verwenden Sie ein DOM-parser wie simplehtmldom.sourceforge.net

InformationsquelleAutor Rajesh Muntari | 2011-11-16

10

Warum nicht einfach suchen href Werte? (Aktualisiert, da der bearbeitete code hat jetzt Anführungszeichen.)
```
preg_match_all('/href="([^\s"]+)/', $html, $match);
```
Dann die URI wäre in $match[1][0].
- Problem ist, es gibt auch andere URLs auf der Seite, so dass das einzige Muster, das ich habe ist "tableentries." und am Anfang und "</a>" nach der URL.Danke für die Hilfe!
InformationsquelleAutor sdleihssirhc

Sollten Sie wirklich nicht verwenden, regex zum Parsen von HTML. DOMDocument ist eigentlich sehr einfach zu verwenden für diese Art der Sache. hier ist ein einfaches Beispiel.

<?php
error_reporting(E_ALL);
$html = "
<table>
    <tr>
        <td>
            <a href='http://www.test1-1.com'>test1-1</a>
        </td>
        <td>
            <a href='http://www.test1-2.com'>test1-2</a>
        </td>
        <td>
            <a href='http://www.test1-3.com'>test1-3</a>
        </td>
    </tr>
    <tr>
        <td>
            <a href='http://www.test2-1.com'>test2-1</a>
        </td>
        <td>
            <a href='http://www.test2-2.com'>test2-2</a>
        </td>
        <td>
            <a href='http://www.test2-3.com'>test2-3</a>
        </td>
    </tr>
</table>";

$DOM = new DOMDocument();
//load the html string into the DOMDocument
$DOM->loadHTML($html);
//get a list of all <A> tags
$a = $DOM->getElementsByTagName('a');
//loop through all <A> tags
foreach($a as $link){
    //echo out the href attribute of the <A> tag.
    echo $link->getAttribute('href').'<br />';
}
?>

Diese ausgeben würde:

http://www.test1-1.com
http://www.test1-2.com
http://www.test1-3.com
http://www.test2-1.com
http://www.test2-2.com
http://www.test2-3.com

Problem ist, es gibt auch andere URLs auf der Seite, so dass das einzige Muster, das ich habe ist "tableentries." und am Anfang und "</a>" nach der URL.Danke für die Hilfe!
wie Sie auch greifen Sie die test1-2 Titel von dem link?
es ist die nodeValue-Eigenschaft, die Sie verwenden können. so etwas wie $link->nodeValue. hier ist ein Beispiel: codepad.viper-7.com/JBsfP1

InformationsquelleAutor Jonathan Kuhn

<?php
preg_match_All("#<a\s[^>]*href\s*=\s*[\'\"]??\s*?(?'path'[^\'\"\s]+?)[\'\"\s]{1}[^>]*>(?'name'[^>]*)<#simU", $html, $hrefs, PREG_SET_ORDER);

foreach ($hrefs AS $urls){
 print $urls['path']."<br>";
}
?>

InformationsquelleAutor Andrew W

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.