Wie man alle Seiten auf einer domain

Ich bin eine einfache web spider und ich Frage mich, ob es eine Möglichkeit gibt, das ausgelöst wird, in meinem PHP-code, ich kann alle Webseiten auf eine domain...

e.g Können sagen, ich wollte alle Webseiten auf Stackoverflow.com . Das bedeutet, dass Sie es bekommen würde:
https://stackoverflow.com/questions/ask
ziehen Webseiten von einer adult-Seite-wie in der Vergangenheit in die Website-Vereinbarung?
https://stackoverflow.com/questions/1234214/
Beste Rails-HTML-Parser

Und alle links. Wie kann ich das bekomme. Oder gibt es eine API oder VERZEICHNIS, um mich zu Holen?

Außerdem ist es eine Möglichkeit, ich kann alle subdomains?

Btw wie Raupen kriechen websites, die nicht SiteMaps oder Syndication-feeds?

Cheers.

Was Sie fordern ist eine große Sicherheitslücke, tragbar zu allen web-domains. Möglicherweise existieren werden, aber ich hoffe, Sie finden es nicht!
Hahaha...ich hatte keine Ahnung. Wie kann dann Google Index Webseiten, wenn es gibt keine solche Sache?
Wie Sie vielleicht bemerkt haben, gibt es VIELE Seiten, die nicht im Google-index. Im Grunde, ob eine Seite im google-index gibt es einen link, um es. Kein link, keine Suchmaschine. In vielen Fällen wird dieser link stammt von der Website selbst und ist genau für die purpouse.

InformationsquelleAutor William The Dev | 2012-12-17

2

Wenn eine Website möchte, dass Sie in der Lage sein, dies zu tun, werden Sie wahrscheinlich einen Sitemap. Mit einer Kombination aus einer XML-sitemap und den links auf den Seiten, Sie sollten in der Lage sein zu durchqueren alle Seiten auf einer site - aber das ist wirklich bis zu der Inhaber der Website, und wie zugänglich Sie es machen.

Wenn die Website nicht nicht wollen Sie zu do dieses, es gibt nichts, was Sie tun können, um um ihn zu arbeiten. HTTP bietet keine standard-Mechanismus für die Auflistung der Inhalte eines Verzeichnisses.

XML-Sitemaps eingeführt wurden im Jahr 2005...wie haben Google und Yahoo indizieren Websites, bevor Sie Sie dann?
Mit folgenden links auf den Seiten (sieht href Attribute usw). Viel davon geht auf die Website, wenn Sie don 'T bieten Sie eine sitemap und Sie don' T sorgen Sie für eine gute navigation Mechanismus für Ihre Website, werden Sie nicht bekommen gute Google-Abdeckung.
Wie sage ich (in Ermangelung einer XML-sitemap) beginnen bei / (wie in http://www.domain.com/) anstatt anfügen von zufälligen Datei-Namen. / bedeutet "die Standardseite für die Website" - na ja, eigentlich heißt das "root-Verzeichnis", aber 99,999% der Websites entweder dienen Sie eine Seite aus dieser URL oder leitet Sie zu der Standard-Seite.
Auch, wenn Sie in diese Art der Sache, ich empfehle Ihnen, sich damit vertraut machen mit dieses Dokument. Es ist ein bisschen trocken, gebe ich zu, aber es ist die einzige und nützliches Dokument auf dem internet für eine web-Entwickler IMHO.
Es könnte aber es funktioniert nicht, weil, wenn Sie denken, es würde es am Ende nur "auf der Suche" Sachen für immer, weil Sie nicht wissen, was die Website geht, es weiß nur, es ist ein Satz von Seiten. Wenn Sie finden, Google verknüpfen Sie eine Reihe der Ergebnisse der Suche auf einer Website, ist es, weil einige Seite irgendwo verlinkt, daß bestimmten Gruppe von Suchergebnissen.

InformationsquelleAutor DaveRandom
1

Würden Sie brauchen, hack den server, sorry.

Was Sie tun können, ist, dass, wenn Sie die Domäne besitzen http://www.my-domain.com Sie können eine PHP-Datei, die Sie als Anfrage-on-demand-Datei. Dass php-Datei, die Sie brauchen, um code, eine Art von code in diesem Beispiel der Ordner FTP Wise. PHP kann eine Verbindung zu einem FTP-server, also das ist ein Weg zu gehen 🙂

http://dk1.php.net/manual/en/book.ftp.php

Können Sie mit PHP Lesen Sie die dirs Ordner und return, die als ein array. Besten, die ich tun kann.

InformationsquelleAutor Daniel
1

Als Sie gesagt haben, Sie müssen Folgen Sie den links.

Um dies zu tun, müssen Sie beginnen mit dem abrufen stackoverflow.com, das ist einfach: file_get_contents ("http:\\stackoverflow.com").

Dann analysieren und deren Inhalt, auf der Suche nach links: <a href="question/ask"> nicht so einfach.

Speichern Sie die neuen URL 's in einer Datenbank und dann analysieren, dass diejenigen, die nach, der wird Ihnen eine ganz neue Reihe von URL' s, zu analysieren diese. Bald genug, werden Sie die überwiegende Mehrheit der Website-Inhalte, einschließlich Sachen wie sub1.stackoverflow.com. Dies wird als kriechen, und es ist ganz einfach zu implementieren, wenn auch nicht so einfach abrufen nützliche Informationen sobald Sie alle, Daten.

Wenn Sie interessiert sind, nur eine bestimmte Domäne verwendet wird, sicher sein, zu entlassen, links zu externen Seiten.

InformationsquelleAutor alanboy
0

Nein, nicht so, wie Sie sich stellen.

Jedoch, vorausgesetzt, Sie haben ein klares Ziel vor Augen, können Sie in der Lage sein:
- verwenden Sie eine "primäre" Anfrage, um die Objekte von Interesse. Einige Webseiten bieten JSON, XML, ... apis, um die Liste solcher Objekte (e.g SO können Liste mit Fragen dieser Art). Dann verwenden Sie "pro Objekt" Anforderungen zum abrufen von Informationen zu einem bestimmten Objekt
- abrufen von Informationen aus anderen öffnen (oder bezahlt) Quellen, wie z.B. Suchmaschinen, Verzeichnisse, "Forensik" - Werkzeuge wie SpyOnWeb
- reverse Engineering die Struktur der Website, z.B. wissen Sie, dass /item/<id> bekommt man auf der Seite des Elements mit der ID <id>
- Fragen Sie den webmaster
Bitte beachten Sie, dass einige dieser Lösungen möglicherweise eine Verletzung der termes of use. Trotzdem sind dies nur Hinweise, auf meinen Kopf.

InformationsquelleAutor
0

Können Sie WinHTTPTack/. Aber es ist höflich, nicht, den hammer auf andere Völker-Websites.

Ich es einfach verwenden, um zu finden, defekte links und machen Sie einen snap-shot.

Wenn Sie beginnen, hämmern, andere Völker-Websites, die Sie Maßnahmen ergreifen. Einige von Ihnen werden nicht schön (also hammer bei Euch).

Nur höflich sein.

Neee...ich bin nicht versuchen, zu speichern lokaler Kopien für die offline-browsing-mate, ich bin am überlegen, wie man eine web-spider.
Und deren Seite scheint down zu sein.
Es ist für mich arbeiten. Die OP ist tatsächlich das Holen einer lokalen Kopie. Vielleicht werfen Sie es Weg, wenn Sie fertig sind. Google schnappt sich eine Seite auf seiner Maschine. Übernimmt das Geschäft und dann futtern es Weg.

InformationsquelleAutor Ed Heal

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.