Get-Protokoll + host-name aus der URL

In meinem Django-app, die ich brauche, um den host-Namen aus den referrer in request.META.get('HTTP_REFERER') zusammen mit dem Protokoll, so dass von URLs wie:

Sollte ich bekommen:

Ich schaute über andere Verwandte Fragen und fand über urlparse, aber das hat nicht den trick tun, da

>>> urlparse(request.META.get('HTTP_REFERER')).hostname
'docs.google.com'

InformationsquelleAutor Gerard | 2012-03-08

django python

246

Sollten Sie in der Lage sein, es zu tun mit urlparse (docs: python2, Python ist3):
```
from urllib.parse import urlparse
# from urlparse import urlparse  # Python 2
parsed_uri = urlparse('http://stackoverflow.com/questions/1234567/blah-blah-blah-blah' )
result = '{uri.scheme}://{uri.netloc}/'.format(uri=parsed_uri)
print(result)

# gives
'http://stackoverflow.com/'
```
- diese Antwort fügt hinzu ein / dem Dritten Beispiel http://www.domain.com, aber ich denke, das könnte ein Manko der Frage, nicht die Antwort.
- ya, mein Fehler... habe nicht bemerkt das fehlende /
- urlparse.urlparse() gibt eine namedtuple-wie Folge, könnten Sie {uri.scheme}://{uri.netloc}/'.format(uri=parsed_uri) für die Lesbarkeit.
- Ich glaube nicht, dass dies eine gute Lösung, wie netloc ist nicht mit der Domäne: versuchen urlparse.urlparse('http://user:[email protected]:8080') und finde, es gibt Teile wie 'user:pass@' und ':8080'
- Das Modul urlparse umbenannt, um das urllib.parsing in Python 3. Also from urllib.parse import urlparse
- Das antwortet, was der Autor gedacht zu Fragen, aber nicht das, was eigentlich angegeben ist. Für diejenigen, die für domain-Namen und nicht den Hostnamen (wie diese Lösung bietet) schlage ich vor Blick auf dm03514 die Antwort, dass derzeit unter. Python ist urlparse kann Euch domain-Namen. Etwas, das scheint ein versehen.
InformationsquelleAutor kgr

https://github.com/john-kurkowski/tldextract

Dies ist eine ausführlichere version von urlparse. Es erkennt domains und sub-domains für Sie.

Aus Ihrer Dokumentation:

>>> import tldextract
>>> tldextract.extract('http://forums.news.cnn.com/')
ExtractResult(subdomain='forums.news', domain='cnn', suffix='com')
>>> tldextract.extract('http://forums.bbc.co.uk/') # United Kingdom
ExtractResult(subdomain='forums', domain='bbc', suffix='co.uk')
>>> tldextract.extract('http://www.worldbank.org.kg/') # Kyrgyzstan
ExtractResult(subdomain='www', domain='worldbank', suffix='org.kg')

ExtractResult ist ein namedtuple, so ist es einfachen Zugriff auf die Teile, die Sie wollen.

>>> ext = tldextract.extract('http://forums.bbc.co.uk')
>>> ext.domain
'bbc'
>>> '.'.join(ext[:2]) # rejoin subdomain and domain
'forums.bbc'

Dies ist die richtige Antwort für die Frage geschrieben, wie man den DOMAIN-Namen. Die gewählte Lösung bietet den HOSTNAMEN, die ich glaube, ist, was der Autor wollte in den ersten Platz.

InformationsquelleAutor dm03514

Python ist3 mit urlsplit:

from urllib.parse import urlsplit
url = "http://stackoverflow.com/questions/9626535/get-domain-name-from-url"
base_url = "{0.scheme}://{0.netloc}/".format(urlsplit(url))
print(base_url)
# http://stackoverflow.com/

InformationsquelleAutor Marc SJ

Reine string-Operationen :):

>>> url = "http://stackoverflow.com/questions/9626535/get-domain-name-from-url"
>>> url.split("//")[-1].split("/")[0].split('?')[0]
'stackoverflow.com'
>>> url = "stackoverflow.com/questions/9626535/get-domain-name-from-url"
>>> url.split("//")[-1].split("/")[0].split('?')[0]
'stackoverflow.com'
>>> url = "http://foo.bar?haha/whatever"
>>> url.split("//")[-1].split("/")[0].split('?')[0]
'foo.bar'

Das ist alles, Leute.

Gute und einfache option, aber scheitert in einigen Fällen, z.B. foo.bar?haha
Wie'bout dies : url.split("//")[-1].split("/")[0].split('?')[0] :-))

InformationsquelleAutor SebMa

>>> import urlparse
>>> url = 'http://stackoverflow.com/questions/1234567/blah-blah-blah-blah'
>>> urlparse.urljoin(url, '/')
'http://stackoverflow.com/'

Für Python 3 import ist from urllib.parse import urlparse.

InformationsquelleAutor png

7

wenn Sie denken, dass Ihre url gültig ist, dann funktioniert die ganze Zeit
```
domain = "http://google.com".split("://")[1].split("/")[0] 
```
- Die letzten split ist falsch, es sind nicht mehr durch Schrägstriche zu trennen.
- es ist nicht ein problem, wenn es nicht mehr Schrägstriche, dann wird die Liste zurück mit einem element. so funktioniert es, ob es ein slash oder nicht
- Ich bearbeitete Ihre Antwort die in der Lage entfernen Sie den down-vote. Schöne Erklärung. Tks.
InformationsquelleAutor Jeeva

Hier ist eine etwas verbesserte version:

urls = [
    "http://stackoverflow.com:8080/some/folder?test=/questions/9626535/get-domain-name-from-url",
    "Stackoverflow.com:8080/some/folder?test=/questions/9626535/get-domain-name-from-url",
    "http://stackoverflow.com/some/folder?test=/questions/9626535/get-domain-name-from-url",
    "https://StackOverflow.com:8080?test=/questions/9626535/get-domain-name-from-url",
    "stackoverflow.com?test=questions&v=get-domain-name-from-url"]
for url in urls:
    spltAr = url.split("://");
    i = (0,1)[len(spltAr)>1];
    dm = spltAr[i].split("?")[0].split('/')[0].split(':')[0].lower();
    print dm

Ausgabe

stackoverflow.com
stackoverflow.com
stackoverflow.com
stackoverflow.com
stackoverflow.com

Fiddle: https://pyfiddle.io/fiddle/23e4976e-88d2-4757-993e-532aa41b7bf0/?i=true

IMHO die beste Lösung, weil einfach und es hält allerlei seltenen Fällen. Danke!
weder einfach, noch verbessert

InformationsquelleAutor Faiz

4

Gibt es etwas falsch mit der reinen string-Operationen:
```
url = 'http://stackoverflow.com/questions/9626535/get-domain-name-from-url'
parts = url.split('//', 1)
print parts[0]+'//'+parts[1].split('/', 1)[0]
>>> http://stackoverflow.com
```
Wenn Sie lieber mit einem nachgestellten Schrägstrich angehängt, erweitern dieses Skript ein bisschen wie so:
```
parts = url.split('//', 1)
base = parts[0]+'//'+parts[1].split('/', 1)[0]
print base + (len(url) > len(base) and url[len(base)]=='/'and'/' or '')
```
Kann wahrscheinlich optimiert ein bisschen ...
- es ist nicht falsch, aber wir haben ein Werkzeug, dass sich schon die Arbeit macht, lasst uns das Rad nicht neu erfinden 😉
InformationsquelleAutor Simon Steinberger
2

Dies ist ein bisschen stumpf, aber verwendet urlparse in beide Richtungen:
```
import urlparse
def uri2schemehostname(uri):
    urlparse.urlunparse(urlparse.urlparse(uri)[:2] + ("",) * 4)
```
dass ungerade ("",) * 4 bit ist da urlparse erwartet eine Sequenz von genau len(urlparse.ParseResult._fields) = 6

InformationsquelleAutor SingleNegationElimination
0

Ich weiß, es ist eine alte Frage, aber auch ich traf Sie heute.
Gelöst wird dies mit einem Einzeiler:
```
import re
result = re.sub(r'(.*://)?([^/?]+).*', '\g<1>\g<2>', url)
```
InformationsquelleAutor Orix Au Yeung

erhalten Domäne/hostname und Herkunft*

url = 'https://stackoverflow.com/questions/9626535/get-protocol-host-name-from-url'
hostname = url.split('/')[2] # stackoverflow.com
origin = '/'.join(url.split('/')[:3]) # https://stackoverflow.com

*Origin verwendet wird, in XMLHttpRequest Header

InformationsquelleAutor cieunteung

-1

Wenn es enthält weniger als 3 Schrägstriche so haben Sie es haben, und wenn nicht, dann finden wir das auftreten zwischen:

import re

link = http://forum.unisoftdev.com/something

slash_count = len(re.findall("/", link))
print slash_count # output: 3

if slash_count > 2:
   regex = r'\:\/\/(.*?)\/'
   pattern  = re.compile(regex)
   path = re.findall(pattern, url)

   print path

InformationsquelleAutor Juraj

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.