Extrahieren Sie Daten von der website via PHP

Ich bin versucht, zu erstellen eine einfache alert-app für einige Freunde.

Grundsätzlich möchte ich in der Lage sein, Daten zu extrahieren "Preis" und "Verfügbarkeit" von einer Webseite wie folgende zwei:

Ich gemacht habe, die Warnmeldung über e-mail und sms-Teil, aber jetzt will ich in der Lage sein, um die Menge und den Preis aus den Seiten (2 oder andere sind), so dass ich kann vergleichen Sie den Preis und Menge zur Verfügung und informieren Sie uns um eine Bestellung zu machen, wenn ein Produkt zwischen einigen schwellen.

Habe ich versucht, einige regex (gefunden auf einige tutorials, aber ich habe einen Weg zu n00b für diese), aber haben es nicht geschafft, diese arbeiten, keine guten Tipps oder Beispiele?

Sie könnten veröffentlichen, was Sie bisher ausprobiert haben....
nicht verwenden reguläre Ausdrücke zum Parsen von HTML. Sie können nicht zuverlässig Parsen von HTML mit regulären Ausdrücken, und Sie wird das Gesicht von Kummer und Frust auf der Straße. Sobald die HTML-änderungen von Ihren Erwartungen, Ihren code gebrochen. Siehe htmlparsing.com/php für Beispiele, wie richtig analysiert HTML-mit PHP-Module, die bereits geschrieben wurden, getestet und debuggt werden.

InformationsquelleAutor Mike | 2010-01-07

30
```
$content = file_get_contents('http://www.sparkfun.com/commerce/product_info.php?products_id=9279');

preg_match('#<tr><th>(.*)</th> <td><b>price</b></td></tr>#', $content, $match);
$price = $match[1];

preg_match('#<input type="hidden" name="quantity_on_hand" value="(.*?)">#', $content, $match);
$in_stock = $match[1];

echo "Price: $price - Availability: $in_stock\n";
```
- thsi funktioniert wie ein Charme auf den ersten Blick, und das ist nur die einfache Lösung war ich lookfin für !!! vielen Dank
- sehr leicht geändert, um den Produktnamen und anderen Informationen aus dem text.... WOW 10x eine Menge, ich meine... es ist nur der einfachste Weg, um einige aussagekräftige Daten aus vielen einfachen websites.
- Du bist herzlich willkommen 🙂 Wenn Sie spezifische Anforderungen haben, können reguläre Ausdrücke sein, die perfekt zu mir Daten aus einer HTML-Seite. Sie brechen, wenn die Struktur der Seite ändert, aber so tun, basiert auf Lösungen Parser.
- die nur Sache, die sich ändern können ist verschiedene links auf der Seite oder einige Sachen wie, dass, aber ich überprüfen Sie die website eine Menge und ich kann sagen, ob es geändert wurde das design, und machen Sie die entsprechende änderung in der regex.
- Downvoter pflegt zu sagen, warum?
- egal, was das ist die Antwort, die ich suchte. wer auf der Suche dazu .... dieser Wert ist 2min. für die Suche in.
InformationsquelleAutor Matteo Riva
7

Es nennt sich screen scraping, in Fall, dass Sie eine google für Sie.

Ich würde vorschlagen, dass Sie einen dom-parser und xpath-Ausdrücke statt. Füttern Sie die HTML durch HtmlTidy ersten, um sicherzustellen, dass es gültig ist markup.

Beispiel:
```
$html = file_get_contents("http://www.example.com");
$html = tidy_repair_string($html);
$doc = new DomDocument();
$doc->loadHtml($html);
$xpath = new DomXPath($doc);
//Now query the document:
foreach ($xpath->query('//table[@class="pricing"]/th') as $node) {
  echo $node, "\n";
}
```
- +1 für die Empfehlung ist die einzig sinnvolle Sache - ein parser.
- Ein Auto ist die beste Wahl für Allgemeine Reisen, aber wenn Sie benötigen, besuchen Sie Ihre Nachbarn ein einfacher Spaziergang kann ausreichen.
InformationsquelleAutor troelskn
5

Was immer Sie tun: nicht verwenden reguläre Ausdrücke zum Parsen von HTML-oder schlimme Dinge werden passieren. Verwenden Sie eine parser statt.
- Ich denke, dass reguläre Ausdrücke sind ok für sehr spezifische Anwendungsfälle (d.h. der Aufschlag/text ist immer der gleiche). Aber natürlich nicht für die Validierung von HTML etc. Parser sind immer eine gute Lösung, aber manchmal sind Sie übertrieben.
- ich dachte, ein regex würde den trick tun, seit ich hier nur versuchen zu extrahieren 2 info ' s von der Seite, und das format ist Recht standard...
- Habt Ihr gelesen, die grafische Beschreibung von dem, was passiert, wenn Sie versuchen zu analysieren, HTML mit regulären Ausdrücken. Wenn sind sehr gewagt, klicken Sie auf den ersten link in meiner Antwort.
- Ein "standard" - format klingt wie eine ideale Gelegenheit, verwenden Sie ein standard-Werkzeug: ein parser.
- Ich sage nur, dass, wenn der Bereich klar ist, regex kann eine schnelle/einfache Lösung. Ich sage nicht, regex sollte verwendet werden, um HTML im Allgemeinen.
- -1 für die Verknüpfung NOCH einmal, die Antwort. Wirklich, geben uns eine Pause.
- Sie müssen nicht auf einen link, wenn Sie nicht gerne.
InformationsquelleAutor
2

1., diese Frage geht zu sehr in details. 2. extrahieren von Daten aus einer website nicht rechtmäßig sein könnte. Allerdings habe ich Hinweise:
1. Verwenden Firebug oder Chrome/Safari-Inspektors erkunden Sie die HTML-Inhalte und Muster interessante Informationen
2. Testen Sie Ihre RegEx um zu sehen, ob die übereinstimmen. Möglicherweise müssen Sie es tun, viele Male (multi-pass-parsing/- Extraktion)
3. Schreiben Sie einen client via cURL oder noch viel einfacher, verwenden file_get_contents (BEACHTEN Sie, dass einige hosting-deaktivieren laden von URLs mit file_get_contents)
Für mich, ich würde eine bessere Nutzung Sauber zu konvertieren, um valides XHTML zu verwenden und dann XPath, Daten zu extrahieren, anstatt RegEx. Warum? Denn XHTML ist nicht regelmäßig und XPath ist sehr flexibel. Sie können lernen, XSLT zu transformieren.

Glück!

InformationsquelleAutor Viet
2

Sind Sie wahrscheinlich am besten aus, dem laden der HTML-code in ein DOM-parser wie this one und der Suche nach der "Preise" - Tabelle. Jedoch, jede Art von Schaben, die Sie tun können brechen, wenn Sie ändern Ihre Seiten-layout, und ist wahrscheinlich illegal, ohne Ihre Zustimmung.

Der beste Weg, aber zu den Menschen sprechen, die auf der Website, und sehen, ob Sie alternative, verlässlichere Formen der Daten-Anlieferung (Web-services, RSS-Feeds, oder Datenbank-Exporte in den Sinn kommen).
- ich will nur tun dies für mich und meinen Freund, so dass wir ein Skript schauen Sie durch die website zu jeder vollen Stunde. Sie nicht suport beliebigen web-services in dieser Zeit. Datenbank exportiert... haha, ich weiß wirklich nicht so denken.
- "Illegal?" Ernsthaft..?
- Ja. Viele Websites verbieten jegliche Art von automatisierten durchsuchen/herunterladen/Analyse Ihrer Inhalte in Ihren Nutzungsbedingungen. In vielen Ländern, das funktioniert und durchgesetzt werden kann. Es ist unwahrscheinlich, dass es irgendeine Schwierigkeit in diesem Fall, aber es ist noch immer erwähnenswert.
- Pekka hast du ein paar Quellen auf, die? Ich bin an diesem Thema interessiert
- Abschaben Daten und re-publishing ist ein copyright-vergehen in den meisten teilen der Welt. Wenn es um Schaben, für den privaten Gebrauch, sieht die situation weniger eindeutig als ich dachte. Ich kam in dieser Google-Antworten Frage answers.google.com/answers/threadview?id=746810 es ist in Bezug auf Indien, sondern macht ein paar internationale Punkte, zu.
- Auch das erneute veröffentlichen von urheberrechtlich geschützten Inhalten ist strafbar, auch wenn man es mit der hand, ich war daran interessiert, über die illegale Teil, wodurch ein automatisiertes Skript zu extrahieren, Sie-und nicht das, was Sie mit den Daten tun.
- Wie gesagt, es ist nicht so einfach, wie re-publishing, und nicht so leicht angreifbar. Schauen Sie sich den link habe ich gepostet, es gibt einige Hinweise, die es gibt.
- Ok, danke (15 chars)
InformationsquelleAutor Pekka 웃

Ist die einfachste Methode zum extrahieren von Daten von der Website. Ich habe analysiert, dass alle meine Daten erfasst-tag nur, damit ich vorbereitet habe diese.

<?php
    include(‘simple_html_dom.php’);
        //Create DOM from URL, paste your destined web url in $page 
        $page = ‘http://facebook4free.com/category/facebookstatus/amazing-facebook-status/’;
        $html = new simple_html_dom();

       //Within $html your webpage will be loaded for further operation
        $html->load_file($page);

        //Find all links
        $links = array();
        //Within find() function, I have written h3 so it will simply fetch the content from <h3> tag only. Change as per your requirement.
       foreach($html->find(‘h3′) as $element) 
        {
            $links[] = $element;
        }
        reset($links);
        //$out will be having each of HTML element content you searching for, within that web page
        foreach ($links as $out) 
        {
            echo $out;
        }                

?>

InformationsquelleAutor

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.