Validierung von URLs in Python

Habe ich versucht herauszufinden, was der beste Weg zum überprüfen einer URL ist (speziell in Python), aber bisher nicht wirklich in der Lage, eine Antwort zu finden. Wie es scheint, gibt es nicht eine bekannte Methode zum überprüfen einer URL, und es hängt davon ab, was URLs, die Sie denken, können Sie bestätigen müssen. Auch fand ich es schwierig zu finden, leicht zu Lesen-standard für die URL-Struktur. Ich fand die RFC 3986 und 3987, aber Sie enthalten viel mehr als nur, wie Sie strukturiert ist.

Bin ich etwas fehlt, oder ist es nicht eine standard-Validierung einer URL?

was Fragen Sie? Sie möchten wissen, ob eine domain in einem korrekten format? Wo ist dein code?
möglich, Duplikat der Wie kann überprüft werden, ob eine URL mit einem regulären Ausdruck in Python?

InformationsquelleAutor mp94 | 2014-03-06

22

Dieses sieht wie es könnte ein Duplikat Wie kann überprüft werden, ob eine URL mit einem regulären Ausdruck in Python?

Sollten Sie in der Lage sein zu verwenden, die urlparse Bibliothek dort beschrieben.
```
>>> from urllib.parse import urlparse # python2: from urlparse import urlparse
>>> urlparse('actually not a url')
ParseResult(scheme='', netloc='', path='actually not a url', params='', query='', fragment='')
>>> urlparse('http://google.com')
ParseResult(scheme='http', netloc='google.com', path='', params='', query='', fragment='')
```
call urlparse auf die Zeichenfolge, die Sie überprüfen möchten, und stellen Sie dann sicher, dass die ParseResult hat Attribute für scheme und netloc
- Sie möchten möglicherweise verwenden Sie rfc3987 (pypi.python.org/pypi/rfc3987) oder mehr verarbeiten auf der urlparse Ergebnis. urlparse nicht wirklich überprüfen netloc als "internet-url" - ich habe gebissen von dieser auch". urlparse('invalidurl') geben Sie eine netloc + Schema.
- urlparse; print urlparse.urlparse('invalidurl')" gibt ParseResult(scheme='', netloc='', path='invalidurl', params='', query='', fragment=''), so dass keine netloc oder scheme. Aber das sieht aus wie ein besseres Paket für dieses problem, so stellt auch die Validierung.
- Sorry, die Formatierung geschraubt bis das display und autolinked auf meinem ursprünglichen Kommentar. Ich hatte indtended urlparse.urlparse('http://invalidurl') - beachten Sie die Regelung wurde abgestreift vom original. die urlparse Modul interpretiert 'invalidurl" als hostname für die netloc-das ist eine richtige interpretation für das Allgemeine format, aber die meisten Leute nicht wollen Sachen wie das zu passieren. ich habe festgestellt, zu viele Tippfehler wie http://example.com -> http://examplecom. wenn Sie ip-Adressen, die es nicht durchsetzen ipv4-oder ipv6-entweder, so wird es akzeptieren 999.999.999.999.999 zu.
- Es sieht aus wie das ist, ein strenger parser, aber rfc3987 können durch diese beiden Fälle als gut (999.999.999.999.999.999 und http://examplecom).
- In Python ist3 import urllib.parse as urlparse
- dies dürfte wohl from urllib.parse import urlparse wie der obige code importiert die gesamten parse-Modul
- So "x://a.bc.1" ist eine gültige URL (scheme='x', netloc= " ein.bc.1') und apple.de nicht (scheme=", netloc=") !? Nicht wirklich praktisch...
- versuchen http://www.cnn.com:80-100d/peter/pan es wird immer noch denken, dass dieser gültig ist..
InformationsquelleAutor bgschiller
10

Die ursprüngliche Frage ist ein bisschen alt, aber vielleicht wollen Sie auch Blick auf die Validator-Sammlung Bibliothek, die ich veröffentlicht ein paar Monate zurück. Es umfasst hoch-performante regex-basierte Validierung von URLs für compliance-gegen die RFC-standard. Einige details:
- Getestet gegen Python 2.7, 3.4, 3.5, 3.6
- Keine Abhängigkeiten zu Python 3.x, eine bedingte Abhängigkeit in Python 2.x (drop-in-Ersatz für Python-2.x ist buggy re Modul)
- Unit-tests, die decken ~80 unterschiedlichen Erfolg/scheitern von URL-mustern, einschließlich nicht-standard-Zeichen und dergleichen. Als in der Nähe umfasst das gesamte Spektrum von der RFC-standard, wie ich in der Lage gewesen, zu finden.
Es ist auch sehr einfach zu bedienen:
```
from validator_collection import validators, checkers

checkers.is_url('http://www.stackoverflow.com')
# Returns True

checkers.is_url('not a valid url')
# Returns False

value = validators.url('http://www.stackoverflow.com')
# value set to 'http://www.stackoverflow.com'

value = validators.url('not a valid url')
# raises a validator_collection.errors.InvalidURLError (which is a ValueError)
```
Darüber hinaus Validator-Sammlung umfasst über 60+ andere Prüfungen, einschließlich der domains und E-Mail-Adressen sowie, so etwas Leute nützlich finden könnten.
- Das sieht wie ein wirklich schönes Paket. Ich habe nicht versucht es noch, aber es verdient mehr als 0 upvotes :-).
InformationsquelleAutor Chris Modzelewski
1

Würde ich die Prüfer-Paket. Hier ist die link um die Dokumentation und Installationsanweisungen.

Es ist genauso einfach, wie
```
import validators
url = 'YOUR URL'
validators.url(url)
```
Wird true zurückgegeben, wenn es ist, und false, wenn nicht.

InformationsquelleAutor Tony Hammack
1

können Sie auch versuchen, mit urllib.request zu validieren, indem die URL in die urlopen Funktion und die exception zu fangen für URLError.
```
from urllib.request import urlopen, URLError

def validate_web_url(url="http://google"):
    try:
        urlopen(url)
        return True
    except URLError:
        return False
```
Dies würde return False in diesem Fall
- Würde das funktionieren, wenn Ihr System keine Verbindung zum internet hat?
InformationsquelleAutor Hamza
-1

Vorausgesetzt, Sie verwenden python 3, könnten Sie das urllib. Der code würde etwa so gehen:
```
import urllib.request as req
import urllib.parse as p

def foo():
    url = 'http://bar.com'
    request = req.Request(url)
    try:
        response = req.urlopen(request)
        #response is now a string you can search through containing the page's html
    except:
        #The url wasn't valid
```
Wenn es keine Fehler auf der Zeile "Antwort = ...", dann die url gültig ist.
- Dies funktioniert nur, wenn der host eine internet-Verbindung hat, die nicht immer wahr sein.
- Es wäre besser, nicht zu verwenden, eine internet-Verbindung, um festzustellen, ob die URL gültig ist. Auch mit Python 2.7, soll angegeben haben, dass in der ursprünglichen Frage.
InformationsquelleAutor mdw7326

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.