Tor-Web-Crawler
Ok, hier ist, was ich brauche.
Ich habe eine PHP-basierte web-crawler.
Es ist hier zugänglich:
http://rz7ocnxxu7ka6ncv.onion/
Nun, mein problem ist, dass meine Spinne, die eigentlich crawlt Seiten muss also auf einen SOCKS-port 9050. Die Sache ist die, ich habe einen tunnel die Verbindung über Tor, so dass Es aufgelöst werden kann .Zwiebel-domains, die ist, was ich bin Indizierung. (Nur die Endung .Zwiebel.)
Rufe ich dieses Skript von der Kommandozeile aus mit php crawl.php und ich füge die entsprechenden Parameter Crawlen der Seite.
Hier ist, was ich denke:
Gibt es eine Möglichkeit, es zu zwingen, Tor zu nutzen?
ODER kann ich die Kraft meiner GESAMTEN MASCHINE zu Tunneln Dinge über Tor, und wie?
(Wie Sie erzwingen, dass alle Datenverkehr über 127.0.0.1:9050)
vielleicht wenn ich die globalen proxy-Einstellungen, php respektieren würden?
Wenn alle meine Lösungen funktionieren, wie würde ich es tun? (Anweisungen Schritt für Schritt bitte, ich bin ein noob.)
Ich will einfach nur die Kiste meiner eigenen Tor Suchmaschine. (Nicht zu empfehlen, meine p2p Suchmaschinen - es ist nicht das, was ich will - ich weiß, Sie existieren, machte ich meine Hausaufgaben.)
Hier ist die crawler-Quelle, wenn Sie sind interessieren, nehmen Sie einen Blick auf:
Vielleicht jemand mit einer Art Herz kann es ändern, verwenden Sie 127.0.0.1:9050 für alle crawling-Anfragen?
http://pastebin.com/kscGJCc5
fopen($url)
. Verwenden Sie cURL mit CURLOPT_PROXY
. Nicht sicher, wie Sie DNS-lookups funktionieren würde, aber.Wie mache ich das? Ich bin ein total noob in diesem.
InformationsquelleAutor user1203301 | 2012-02-11
Du musst angemeldet sein, um einen Kommentar abzugeben.
cURL unterstützt SOCKS-verbindungen; versuchen Sie dies:
InformationsquelleAutor Ben Bos
Es sei denn, ich bin fehlt etwas die Antwort ist ja, und hier finden Sie einige Unterlagen auf der Tor-Website. Die Anweisungen sind ziemlich spezifisch. Allerdings habe ich nicht gesetzt, Tor als proxy es ist etwas, das ich betrachtet habe, ist dies der Ort, den ich starten würde.
BEARBEITEN:
Es ist tot einfach setup Tor auf Linux und verwenden Sie es als ein proxy als die Dokumentation vermuten lässt.
Nun nach einem Blick durch OPs-code, den wir sehen, Anrufe zu file_get_contents. Während die einfachste Methode, um auf den ersten file_get_contents wird unhandlich, wenn Sie anfangen wollen, diese parametrisieren die Anfrage, da man stream Kontexten.
Erste Vorschlag ist, sich zu bewegen, um LOCKE, aber wieder, mehr zu Lesen, wie SOCKEN works w/HTTP ist probly, um wirklich zu beantworten, diese Frage... Aber um die Frage zu beantworten technisch, wie das senden einer HTTP-Anfrage zu einem Tor-SOCKS-proxy auf localhost, wieder einfach..
Aber was bedeutet Tor erzählen?
Grundsätzlich erfahren Sie mehr über SOCKEN & HTTP. Eine weitere option ist google nach PHP-SOCKEN-clients. Eine kurze Inspektion ergibt eine Bibliothek, die behauptet, es kann das senden von HTTP-Anforderungen über SOCKEN.
EDIT:
Gut, 1 mehr edit! Sekunden nach Beendigung meiner letzten post, ich habe einen Weg gefunden, es zu tun. Dieser Artikel zeigt uns, wie etwas einzurichten, genannt Privoxy, was übersetzt SOCKEN-Anfragen in HTTP-Anfragen. Setzen, dass vor der Tor und blamo, schicken wir den Proxy der HTTP-Anfragen durch Tor!
Klingt, als hätten Sie etwas zu Lesen zu tun...
ich habe gelesen, dass Artikel Hunderte Male in der vergangenen Woche. Es funktioniert nicht - Vertrauen Sie mir.
Ich aktualisiert meine Antwort. Es ist super-leicht zu senden Sie Anfragen zu Tor auf localhost, aber die Herausforderung ist das senden von HTTP-Anforderungen über einen SOCKS-Verbindung. Das Ende der überarbeiteten Antwort, dass die Punkte zu einer Bibliothek, die behaupten, es kann genau das tun.
OK, Sekunden später fand ich etwas namens Privoxy, jetzt schicken Proxy HTTP-Anfragen über Tor. Vielen Dank für das schieben Sie mir, das ist etwas, was ich wollte, um herauszufinden, sowieso.
InformationsquelleAutor quickshiftin
müssen Sie abfangen der dns-lookup-Anfrage aus dem php-Skript durch die Konfiguration von tor, mit der "dnsport-Richtlinie". dann müssen Sie konfigurieren Sie einen "transport" für tor und "virtualnetworkaddress". was passiert nun, wenn dein php-script macht ein dns-lookup-thru-tor ist, dass tor sieht eine Anforderung für eine onion-Adresse und antwortet mit einer ip-Adresse aus dem "virtualnetworkaddress" - Bereich. Sie haben nun die Umleitung von Datenverkehr, der an diese Adresse zu der Adresse, definiert mit "transport". Lesen Sie "torrc" manuell auf "automaphostonresolve", "virtualnetworkaddress", "dnsport" und "transport".
InformationsquelleAutor freeside
Ich denke, es ist so einfach wie das ausführen der Befehlszeile Anfrage mit der
usewithtor
odertorify
option. Zum Beispiel:$ usewithtor crawl.php
Und das Skript wird in der Lage sein, um die Interaktion mit .Zwiebel-Websites. Dass bauen ein crawler Tor für mich, ich würde definitiv nicht diesen Weg gehen, der für die Produktion verwenden, die ich stattdessen verwenden python, PySocks und andere crawler Bibliotheken anstelle von CURL. Ich hoffe, dies beantwortet Ihre Frage und gibt Ihnen einige Ideen für die weitere Umsetzung der Strategien vorantreiben.
Dank
InformationsquelleAutor jamescampbell
Habe ich gesucht, wie macht das gleiche in php mit Curl habe ich viel gelesen Thema und Beispiele, aber dies ist nicht arbeiten ! ohne Erfolg
ich habe gesehen, dass andere post :
Wie kann ich eine Verbindung zu einem Tor hidden service mit cURL in PHP? auf Stackoverflow, die interessant sein können
Habe ich erfolgreich finden Sie eine Haken das funktioniert für mich in PHP :
kleines Beispiel mit
https://blockchainbdgpzk.onion/
So, ich bin auf environement Windows , ich habe kopieren curl.exe und sein Zertifikat in den Ordner c:\windows\system32
oder wie das funktioniert auch nur hinzufügen, dass diese 2 Regeln ( -k )
Quelle :
PHP-CURL setzen von curlopt_ssl_verifypeer ignoriert
return string '0.00296787' (length=10)
Es ist nicht perfekt, aber wenn es kann jemand helfen. Sorry für mein scheiss Deutsch Freunde.
InformationsquelleAutor LooterOf Flux
Nur machen Sie eigene HTTP-proxy:
Eigentlich mag ich das, weil einige möglicherweise nur Zugang zu vielen Orten, dass php laufen anstatt Zugang zu einem dedicated/vserver, wo Sie installieren können, privoxy. Wenn Sie sagen, ein Dutzend hosting-accounts mit verschiedenen ips konnten Sie sich Ihre eigene kleine proxy-Netzwerk.
InformationsquelleAutor jQguru