Wie bekomme ich den Domain-Namen von der URL?

Wie kann ich die Holen einen domain-Namen aus einer URL-Zeichenfolge?

Beispiele:

+----------------------+------------+
| input                | output     |
+----------------------+------------+
| www.google.com       | google     |
| www.mail.yahoo.com   | mail.yahoo |
| www.mail.yahoo.co.in | mail.yahoo |
| www.abc.au.uk        | abc        |
+----------------------+------------+

Verwandte:

Die Anpassung einer web-Adresse durch regex

InformationsquelleAutor der Frage Chinmay | 2009-02-20

regex url

38

Ich hatte mal zu schreiben, wie eine regex für ein Unternehmen, in dem ich arbeitete. Die Lösung war diese:
- Erhalten eine Liste mit allen ccTLD und gTLD zur Verfügung. Ihre erste Anlaufstelle sollte IANA. Die Liste von Mozilla sieht auf den ersten Blick, aber es fehlt ac.Großbritannien, zum Beispiel, so für das es nicht wirklich nutzbar.
- Auf die Liste, wie im Beispiel unten. Eine Warnung: Reihenfolge ist wichtig! Wenn org.uk erscheinen würde, nachdem uk dann Beispiel.org.uk würde passen org statt Beispiel.
Beispiel-regex:
```
.*([^\.]+)(com|net|org|info|coop|int|co\.uk|org\.uk|ac\.uk|uk|__and so on__)$
```
Klappte dies wirklich gut und auch abgestimmt komisch, inoffizielle top-Ebenen wie de.com und Freunde.

Den Kopf:
- Sehr schnell, wenn die regex ist optimal bestellt
Der Nachteil dieser Lösung ist natürlich:
- Handschriftliche regex, die muss manuell aktualisiert werden, wenn ccTLDs ändern oder Hinzugefügt werden. Mühsame Arbeit!
- Sehr große regex-also nicht sehr gut lesbar ist.
InformationsquelleAutor der Antwort pi.

/^(?:www\.)?(.*?)\.(?:com|au\.uk|co\.in)$/

InformationsquelleAutor der Antwort jfs

Extrahieren Sie den Domain-Namen exakt sein kann ziemlich schwierig, vor allem, weil die domain-Endung enthalten kann, 2 Teile (wie .com.au-oder .co.Großbritannien) und die subdomain (das Präfix) kann oder kann nicht da sein. Auflistung aller domain-Endungen ist nicht eine option, da gibt es Hunderte von diesen. EuroDNS.com zum Beispiel listet über 800 domain-Namen-Erweiterungen.

Deshalb schrieb ich eine kurze php-Funktion, die verwendet "parse_url ()" und einige Beobachtungen über domain-Erweiterungen, um genau zu extrahieren Sie die url-Komponenten UND der domain-name. Die Funktion ist wie folgt:

function parse_url_all($url){
    $url = substr($url,0,4)=='http'? $url: 'http://'.$url;
    $d = parse_url($url);
    $tmp = explode('.',$d['host']);
    $n = count($tmp);
    if ($n>=2){
        if ($n==4 || ($n==3 && strlen($tmp[($n-2)])<=3)){
            $d['domain'] = $tmp[($n-3)].".".$tmp[($n-2)].".".$tmp[($n-1)];
            $d['domainX'] = $tmp[($n-3)];
        } else {
            $d['domain'] = $tmp[($n-2)].".".$tmp[($n-1)];
            $d['domainX'] = $tmp[($n-2)];
        }
    }
    return $d;
}

Diese einfache Funktion wird in fast jedem Fall. Es gibt ein paar Ausnahmen, aber diese sind sehr selten.

Nachweisen /testen dieser Funktion können Sie die folgenden verwenden:

$urls = array('www.test.com', 'test.com', 'cp.test.com' .....);
echo "<div style='overflow-x:auto;'>";
echo "<table>";
echo "<tr><th>URL</th><th>Host</th><th>Domain</th><th>Domain X</th></tr>";
foreach ($urls as $url) {
    $info = parse_url_all($url);
    echo "<tr><td>".$url."</td><td>".$info['host'].
    "</td><td>".$info['domain']."</td><td>".$info['domainX']."</td></tr>";
}
echo "</table></div>";

Wird die Ausgabe wie folgt für die URL ' s aufgelistet:

Wie bekomme ich den Domain-Namen von der URL?

Wie Sie sehen können, die domain-Namen und den domain-Namen ohne die Endung konsequent extrahiert, was die URL, die präsentiert wird, um die Funktion.

Ich hoffe, dass dies hilft.

InformationsquelleAutor der Antwort Clinton

4

Ich weiß nicht alle Bibliotheken, aber die string-Manipulationen von domain-Namen ist einfach genug.

Der schwierige Teil ist zu wissen, wenn der name bei der zweiten oder Dritten Ebene. Für diese benötigen Sie eine Daten-Datei, die Sie pflegen (z.B. für .uk ist nicht immer die Dritte Ebene, einige Organisationen (z.B. bl.uk, jet.uk) gibt es auf der zweiten Ebene).

Den source von Firefox von Mozilla hat eine solche Daten-Datei, überprüfen Sie die Mozilla-Lizenzierung, um zu sehen, wenn man wiederverwenden konnte.

InformationsquelleAutor der Antwort Richard

Gibt es zwei Möglichkeiten

Mit split

Dann nur parse, string

var domain;
//find & remove protocol (http, ftp, etc.) and get domain
if (url.indexOf('://') > -1) {
    domain = url.split('/')[2];
} if (url.indexOf('//') === 0) {
    domain = url.split('/')[2];
} else {
    domain = url.split('/')[0];
}

//find & remove port number
domain = domain.split(':')[0];

Mit Regex

 var r = /:\/\/(.[^/]+)/;
 "http://stackoverflow.com/questions/5343288/get-url".match(r)[1] 
 => stackoverflow.com

Hoffe, das hilft

InformationsquelleAutor der Antwort Fizer Khan

import urlparse

GENERIC_TLDS = [
    'aero', 'asia', 'biz', 'com', 'coop', 'edu', 'gov', 'info', 'int', 'jobs', 
    'mil', 'mobi', 'museum', 'name', 'net', 'org', 'pro', 'tel', 'travel', 'cat'
    ]

def get_domain(url):
    hostname = urlparse.urlparse(url.lower()).netloc
    if hostname == '':
        # Force the recognition as a full URL
        hostname = urlparse.urlparse('http://' + uri).netloc

    # Remove the 'user:passw', 'www.' and ':port' parts
    hostname = hostname.split('@')[-1].split(':')[0].lstrip('www.').split('.')

    num_parts = len(hostname)
    if (num_parts < 3) or (len(hostname[-1]) > 2):
        return '.'.join(hostname[:-1])
    if len(hostname[-2]) > 2 and hostname[-2] not in GENERIC_TLDS:
        return '.'.join(hostname[:-1])
    if num_parts >= 3:
        return '.'.join(hostname[:-2])

Dieser code ist nicht garantiert, um zu arbeiten mit alle URLs und nicht filter diejenigen, die grammatikalisch korrekt sind, aber ungültig, wie " Beispiel.uk'.

Aber es wird den job in den meisten Fällen.

InformationsquelleAutor der Antwort Juan-Pablo Scaletti

Im Grunde, was Sie wollen, ist:

google.com        -> google.com    -> google
www.google.com    -> google.com    -> google
google.co.uk      -> google.co.uk  -> google
www.google.co.uk  -> google.co.uk  -> google
www.google.org    -> google.org    -> google
www.google.org.uk -> google.org.uk -> google

Optional:

www.google.com     -> google.com    -> www.google
images.google.com  -> google.com    -> images.google
mail.yahoo.co.uk   -> yahoo.co.uk   -> mail.yahoo
mail.yahoo.com     -> yahoo.com     -> mail.yahoo
www.mail.yahoo.com -> yahoo.com     -> mail.yahoo

Brauchen Sie nicht, um den Bau einer sich ständig verändernden regex als 99% der domains werden passen, wenn Sie einfach nur Optik bei der 2. Letzte Teil des namens:

(co|com|gov|net|org)

Wenn es einer von diesen, müssen Sie match-3 Punkte, sonst 2. Einfach. Nun, meine regex-Zauberei ist kein Spiel für die von einigen anderen SO ' ers, so dass der beste Weg, die ich gefunden habe, um dies zu erreichen ist mit einigen Codes, vorausgesetzt, Sie haben bereits abgestreift den Pfad:

 my @d=split /\./,$domain;                # split the domain part into an array
 $c=@d;                                   # count how many parts
 $dest=$d[$c-2].'.'.$d[$c-1];             # use the last 2 parts
 if ($d[$c-2]=~m/(co|com|gov|net|org)/) { # is the second-last part one of these?
   $dest=$d[$c-3].'.'.$dest;              # if so, add a third part
 };
 print $dest;                             # show it

Nur der name, wie pro Ihre Frage:

 my @d=split /\./,$domain;                # split the domain part into an array
 $c=@d;                                   # count how many parts
 if ($d[$c-2]=~m/(co|com|gov|net|org)/) { # is the second-last part one of these?
   $dest=$d[$c-3];                        # if so, give the third last
   $dest=$d[$c-4].'.'.$dest if ($c>3);    # optional bit
 } else {
   $dest=$d[$c-2];                        # else the second last
   $dest=$d[$c-3].'.'.$dest if ($c>2);    # optional bit 
 };
 print $dest;                             # show it

Ich mag diesen Ansatz, weil es wartungsfrei. Es sei denn, Sie wollen, um zu überprüfen, dass es eigentlich eine legitime Domäne, aber das ist irgendwie sinnlos, da Sie wahrscheinlich nur mit Hilfe dieses Prozess-log-Dateien und eine ungültige Domäne nicht finden konnte seinen Weg in dort in den ersten Platz.

Wenn Sie gerne match "inoffizielle" subdomains wie bozo.za.net oder bozo.au.uk, bozo.msf.ru fügen Sie einfach (za|au|msf) in der regex.

Ich würde gerne jemanden sehen, der dies alles mit nur einem regex, ich bin sicher, es ist möglich.

InformationsquelleAutor der Antwort

1

/[^w{3}\.]([a-zA-Z0-9]([a-zA-Z0-9\-]{0,65}[a-zA-Z0-9])?\.)+[a-zA-Z]{2,6}/gim

Nutzung dieser javascript regex ignoriert www und folgende dot, unter Beibehaltung der Domäne intakt. auch richtig passt kein www und cc tld

InformationsquelleAutor der Antwort stancoffyn
1

Es ist nicht möglich, ohne die Verwendung einer TLD-Liste zum vergleichen mit Ihren gibt viele Fälle wie http://www.db.de/ oder http://bbc.co.uk/

Aber auch mit, dass Sie nicht haben, Erfolg in jedem Fall, denn der SLD ist wie http://big.uk.com/ oder http://www.uk.com/

Wenn Sie eine vollständige Liste können Sie die öffentliche suffix-Liste:

http://mxr.mozilla.org/mozilla-central/source/netwerk/dns/effective_tld_names.dat?raw=1

Fühlen Sie sich frei, zu erweitern, meine Funktion zu extrahieren, die domain-Namen, nur. Es wird nicht regex verwenden und es ist schnell:

http://www.programmierer-forum.de/domainnamen-ermitteln-t244185.htm#3471878

InformationsquelleAutor der Antwort mgutt
0

Brauchen Sie eine Liste, welche domain-Präfixe und-Suffixe entfernt werden kann. Zum Beispiel:

Präfixe:
- www.
Suffixe:
- .com
- .co.in
- .au.uk
InformationsquelleAutor der Antwort Gumbo

Also wenn man nur einen string und nicht um ein Fenster.Speicherort, den Sie verwenden könnte...

String.prototype.toUrl = function(){

if(!this && 0 < this.length)
{
    return undefined;
}
var original = this.toString();
var s = original;
if(!original.toLowerCase().startsWith('http'))
{
    s = 'http://' + original;
}

s = this.split('/');

var protocol = s[0];
var host = s[2];
var relativePath = '';

if(s.length > 3){
    for(var i=3;i< s.length;i++)
    {
        relativePath += '/' + s[i];
    }
}

s = host.split('.');
var domain = s[s.length-2] + '.' + s[s.length-1];    

return {
    original: original,
    protocol: protocol,
    domain: domain,
    host: host,
    relativePath: relativePath,
    getParameter: function(param)
    {
        return this.getParameters()[param];
    },
    getParameters: function(){
        var vars = [], hash;
        var hashes = this.original.slice(this.original.indexOf('?') + 1).split('&');
        for (var i = 0; i < hashes.length; i++) {
            hash = hashes[i].split('=');
            vars.push(hash[0]);
            vars[hash[0]] = hash[1];
        }
        return vars;
    }
};};

Wie zu verwenden.

var str = "http://en.wikipedia.org/wiki/Knopf?q=1&t=2";
var url = str.toUrl;

var host = url.host;
var domain = url.domain;
var original = url.original;
var relativePath = url.relativePath;
var paramQ = url.getParameter('q');
var paramT = url.getParamter('t');

InformationsquelleAutor der Antwort Thomas Paris

0

Für einen bestimmten Zweck habe ich dieses schnelle Python-Funktion gestern. Es gibt domain-URL. Es ist schnell und braucht keine input-Datei mit der Auflistung der Sachen. Allerdings, ich behaupte nicht, es funktioniert in allen Fällen, aber es macht wirklich den job, den ich brauchte für einen einfachen text-mining-script.

Ausgabe sieht wie folgt aus :

http://www.google.co.uk => google.co.uk

http://24.media.tumblr.com/tumblr_m04s34rqh567ij78k_250.gif => tumblr.com
```
def getDomain(url):    
        parts = re.split("\/", url)
        match = re.match("([\w\-]+\.)*([\w\-]+\.\w{2,6}$)", parts[2]) 
        if match != None:
            if re.search("\.uk", parts[2]): 
                match = re.match("([\w\-]+\.)*([\w\-]+\.[\w\-]+\.\w{2,6}$)", parts[2])
            return match.group(2)
        else: return ''  
```
Scheint ziemlich gut zu funktionieren.

Es hat sich jedoch angepasst werden, um eine Domäne entfernen-Erweiterungen bei der Ausgabe, wie Sie wollten.

InformationsquelleAutor der Antwort binnie
0

Verwenden Sie diese
(.)(.*?)(.)
dann einfach extrahieren den führenden und am Ende Punkte.
Einfach, nicht wahr?

InformationsquelleAutor der Antwort pabben
0
1. wie ist das
  
  =((?:(?:(?:http)s?:)?\/\/)?(?:(?:[a-zA-Z0-9]+)\.?)*(?:(?:[a-zA-Z0-9]+))\.[a-zA-Z0-9]{2,3})
  (Sie können hinzufügen, "\ /" zum Ende von Muster
2. wenn Ihr Ziel ist, zu befreien url übergeben wird als Parameter können Sie hinzufügen, die das gleiche Vorzeichen wie der erste char, wie:
  
  =((?:(?:(?:http)s?:)?//)?(?:(?:[a-zA-Z0-9]+).?)*(?:(?:[a-zA-Z0-9]+)).[a-zA-Z0-9]{2,3}/)
  
  und ersetzen mit "/"
Das Ziel dieses Beispiels, um loszuwerden, von jedem domain-Namen ist unabhängig von der form es erscheint.
(D. H., um sicherzustellen url-Parameter nicht incldue domain-Namen zu vermeiden xss-Angriff)

InformationsquelleAutor der Antwort Chaim Klar

-1

#!/usr/bin/perl -w
use strict;

my $url = $ARGV[0];
if($url =~ /([^:]*:\/\/)?([^\/]*\.)*([^\/\.]+)\.[^\/]+/g) {
  print $3;
}

InformationsquelleAutor der Antwort Dark Castle

-1
```
/^(?:https?:\/\/)?(?:www\.)?([^\/]+)/i
```
InformationsquelleAutor der Antwort John Foley

-1

Nur für wissen:

'http://api.livreto.co/books'.replace(/^(https?:\/\/)([a-z]{3}[0-9]?\.)?(\w+)(\.[a-zA-Z]{2,3})(\.[a-zA-Z]{2,3})?.*$/, '$3$4$5');

# returns livreto.co

InformationsquelleAutor der Antwort GodFather

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.