Parsen der Zeichenfolge für die Domäne / hostName
Kunden eingeben können Webseiten von domain-Namen. Sie können auch geben Sie E-Mailadressen von Ihren Kontakten.
Wissen, dass wir brauchen, um Kunden zu finden, die websited whoose Domäne verbunden werden können, um die Domänen der E-Mailadressen.
Also meine Idee ist, extrahieren Sie den host aus dem webadress und aus der url und vergleichen Sie
Also, was ist die zuverlässigste Algorithmus, um die Hostnamen aus url?
beispielsweise ein host kann sein:
foo.com
www.foo.com
http://foo.com
https://foo.com
https://www.foo.com
Das Ergebnis sollte immer sein foo.com
- Richtig, mein Fehler
- Punkt der Klärung, da Sie gelöscht, das Beispiel mit der .vu TLD sagen Sie, Sie kümmert sich nur darum .com-TLDs oder ist das eine zu starke Vereinfachung?
- es ist eine grobe Vereinfachung. es könnte eine Art von TLD .de .eu .biz..... die wichtige Voraussetzung ist, um mögliche Kandidaten passenden E-Mailadressen durch das betrachten von website-urls
- Ich verwenden .net / c#
Du musst angemeldet sein, um einen Kommentar abzugeben.
Anstatt sich auf unzuverlässige regex verwenden
System.Uri
zu tun, die Analyse für Sie. Verwenden Sie einen code wie diesen:Jetzt, um nur die top-level-domain, die Sie verwenden können:
Hier einen regulären Ausdruck entsprechen, wird die url, die Sie zur Verfügung gestellt haben. Im wesentlichen http und https etc sind optional, so ist das www ist dann Alles aufeinander abgestimmt, um einen möglichen Pfad;
Dies würde bedeuten, dass;
Bewerten würde zu
a!notit.com
), oder ein mit zu vielen Zeichen (über 63)Gibt es bereits ein url-parser in c# für die Extraktion dieser Informationen
Hier sind einige Beispiele http://www.stev.org/post/2011/06/27/C-HowTo-Parse-a-URL.aspx
Finden Sie unter dieser url. Die Host-Eigenschaft, im Gegensatz zu der Behörde wird nicht die port-Nummer.
http://msdn.microsoft.com/en-us/library/system.uri.host(v=vs. 110).aspx