Wie tun Sie, extrahieren Sie eine url aus einem string in python?

Beispiel:

string = "This is a link http://www.google.com"

Wie konnte ich extrahieren 'http://www.google.com' ?

(Jeder link wird von der gleichen format, das ich.e 'http://')

Sie könnte prüfen, diese Antwort: stackoverflow.com/questions/499345/...
Keiner wird zurückgegeben, wenn ich versuche, die Lösung.
Wenn dies für eine roh-text-Datei (als Ausdruck in deiner Frage), Sie könnte prüfen, diese Antwort: stackoverflow.com/questions/839994/extracting-a-url-in-python
Siehe mathiasbynens.werden/demo/url-regex
Möglich, Duplikat der Was ist die beste regular expression um zu überprüfen, ob ein string eine gültige URL?

InformationsquelleAutor Sheldon | 2012-03-18

24

Kann es einige Wege, dies zu tun, aber die sauberste wäre die Verwendung von regex
```
>>> myString = "This is a link http://www.google.com"
>>> print re.search("(?P<url>https?://[^\s]+)", myString).group("url")
http://www.google.com
```
Wenn es mehrere links, die Sie verwenden können, etwas ähnliches wie das unten
```
>>> myString = "These are the links http://www.google.com  and http://stackoverflow.com/questions/839994/extracting-a-url-in-python"
>>> print re.findall(r'(https?://[^\s]+)', myString)
['http://www.google.com', 'http://stackoverflow.com/questions/839994/extracting-a-url-in-python']
>>> 
```
- Dieser ist zu grob für viele Reale-Welt-Szenarien. Es versagt völlig für ftp:// URLs und mailto: URLs, etc, und wird naiv schnappen Sie sich den Schwanz von <a href="http://google.com/">Click here</a> (d.h. durch "klicken").
- Die Frage ist nicht, über Parsen von HTML, sondern eine URL in einen string der text, der immer http - format. Also das funktioniert wirklich gut. Aber ja, ziemlich wichtig für Menschen, die wissen, was Sie sagen, wenn Sie hier sind zum Parsen von HTML oder ähnlichem.
InformationsquelleAutor Abhijit
12

In Ordnung zu finden, eine web-URL in eine generische Zeichenfolge, die Sie verwenden können, eine regulärer Ausdruck (regex).

Einem einfachen regex für die URL-matching-wie der folgende sollte passen Ihren Fall.
```
    regex = r'('

    # Scheme (HTTP, HTTPS, FTP and SFTP):
    regex += r'(?:(https?|s?ftp):\/\/)?'

    # www:
    regex += r'(?:www\.)?'

    regex += r'('

    # Host and domain (including ccSLD):
    regex += r'(?:(?:[A-Z0-9][A-Z0-9-]{0,61}[A-Z0-9]\.)+)'

    # TLD:
    regex += r'([A-Z]{2,6})'

    # IP Address:
    regex += r'|(?:\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})'

    regex += r')'

    # Port:
    regex += r'(?::(\d{1,5}))?'

    # Query path:
    regex += r'(?:(\/\S+)*)'

    regex += r')'
```
Wenn Sie möchten, noch genauer, in der TLD Abschnitt, sollten Sie sicherstellen, dass die TLD ist eine gültige TLD (siehe die gesamte Liste der gültigen TLDs hier: https://data.iana.org/TLD/tlds-alpha-by-domain.txt):
```
    # TLD:
    regex += r'(com|net|org|eu|...)'
```
Dann können Sie einfach kompilieren der ehemaligen regex und verwenden Sie es, um mögliche matches:
```
    import re

    string = "This is a link http://www.google.com"

    find_urls_in_string = re.compile(regex, re.IGNORECASE)
    url = find_urls_in_string.search(string)

    if url is not None and url.group(0) is not None:
        print("URL parts: " + str(url.groups()))
        print("URL" + url.group(0).strip())
```
Denen im Fall der string - "Dies ist ein link http://www.google.com" wird die Ausgabe:
```
    URL parts: ('http://www.google.com', 'http', 'google.com', 'com', None, None)
    URL: http://www.google.com
```
Wenn Sie ändern Sie den Eingang mit einer komplexeren URL, zum Beispiel "Dies ist auch eine URL https://www.host.domain.com:80/path/page.php?query=value&a2=v2#foo aber das ist nicht mehr" wird die Ausgabe:
```
    URL parts: ('https://www.host.domain.com:80/path/page.php?query=value&a2=v2#foo', 'https', 'host.domain.com', 'com', '80', '/path/page.php?query=value&a2=v2#foo')
    URL: https://www.host.domain.com:80/path/page.php?query=value&a2=v2#foo
```
HINWEIS: Wenn Sie sind auf der Suche nach mehr URLs in einem einzigen string, können Sie immer noch die gleiche regex, sondern nur mit findall() statt Suche().
- Also der regex am Ende wird ((?:(https?|s?ftp):\/\/)?(?:www\.)?((?:(?:[A-Z0-9][A-Z0-9-]{0,61}[A-Z0-9]\.)+)([A-Z]{2,6})|(?:\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}))(?::(\d{1,5}))?(?:(\/\S+)*)). Beachten Sie auch die TLD-Liste jetzt schließt auch Spaß Endungen wie XN--VERMGENSBERATUNG-PWB, als 24 Zeichen lang ist, wird nicht aufgefangen von diesem.
- Besser wäre hinzuzufügen (?i) um die Muster mehr tragbar. Auch, denken Sie daran, diese entsprechen 23.084.828.566 das ist keine gültige IP-Adresse, aber es ist ein Gültiger float in manchen Gebietsschemas.
- Es gibt eine Art von Längenbeschränkung auf dieser regex e.g: docs.google.com/spreadsheets/d/10FmR8upvxZcZE1q9n1o40z16mygUJklkXQ7lwGS4nlI entspricht genau docs.google.com/spreadsheets/d/10FmR8upvxZcZE1q9n.
InformationsquelleAutor Paolo Rovelli
6

Gibt es einen anderen Weg, wie zum extrahieren von URLs aus dem text leicht. Sie können urlextract um es für Sie tun, installieren Sie es einfach über pip:
```
pip install urlextract
```
und dann können Sie es verwenden, wie diese:
```
from urlextract import URLExtract

extractor = URLExtract()
urls = extractor.find_urls("Let's have URL stackoverflow.com as an example.")
print(urls) # prints: ['stackoverflow.com']
```
Finden Sie mehr info auf meiner github Seite: https://github.com/lipoja/URLExtract

HINWEIS: Es lädt eine Liste von TLDs aus iana.org um Sie zu halten up-to-date. Aber wenn das Programm keinen Internetzugang hat, dann ist es nicht für Sie.

InformationsquelleAutor

Diese extrahiert alle urls mit Parametern, irgendwie alle oben genannten Beispiele haben nicht funktioniert, für mich

import re

data = 'https://net2333.us3.list-some.com/subscribe/confirm?u=f3cca8a1ffdee924a6a413ae9&id=6c03fa85f8&e=6bbacccc5b'

WEB_URL_REGEX = r"""(?i)\b((?:https?:(?:/{1,3}|[a-z0-9%])|[a-z0-9.\-]+[.](?:com|net|org|edu|gov|mil|aero|asia|biz|cat|coop|info|int|jobs|mobi|museum|name|post|pro|tel|travel|xxx|ac|ad|ae|af|ag|ai|al|am|an|ao|aq|ar|as|at|au|aw|ax|az|ba|bb|bd|be|bf|bg|bh|bi|bj|bm|bn|bo|br|bs|bt|bv|bw|by|bz|ca|cc|cd|cf|cg|ch|ci|ck|cl|cm|cn|co|cr|cs|cu|cv|cx|cy|cz|dd|de|dj|dk|dm|do|dz|ec|ee|eg|eh|er|es|et|eu|fi|fj|fk|fm|fo|fr|ga|gb|gd|ge|gf|gg|gh|gi|gl|gm|gn|gp|gq|gr|gs|gt|gu|gw|gy|hk|hm|hn|hr|ht|hu|id|ie|il|im|in|io|iq|ir|is|it|je|jm|jo|jp|ke|kg|kh|ki|km|kn|kp|kr|kw|ky|kz|la|lb|lc|li|lk|lr|ls|lt|lu|lv|ly|ma|mc|md|me|mg|mh|mk|ml|mm|mn|mo|mp|mq|mr|ms|mt|mu|mv|mw|mx|my|mz|na|nc|ne|nf|ng|ni|nl|no|np|nr|nu|nz|om|pa|pe|pf|pg|ph|pk|pl|pm|pn|pr|ps|pt|pw|py|qa|re|ro|rs|ru|rw|sa|sb|sc|sd|se|sg|sh|si|sj|Ja|sk|sl|sm|sn|so|sr|ss|st|su|sv|sx|sy|sz|tc|td|tf|tg|th|tj|tk|tl|tm|tn|to|tp|tr|tt|tv|tw|tz|ua|ug|uk|us|uy|uz|va|vc|ve|vg|vi|vn|vu|wf|ws|ye|yt|yu|za|zm|zw)/)(?:[^\s()<>{}\[\]]+|\([^\s()]*?\([^\s()]+\)[^\s()]*?\)|\([^\s]+?\))+(?:\([^\s()]*?\([^\s()]+\)[^\s()]*?\)|\([^\s]+?\)|[^\s`!()\[\]{};:'".,<>?«»“”‘’])|(?:(?<!@)[a-z0-9]+(?:[.\-][a-z0-9]+)*[.](?:com|net|org|edu|gov|mil|aero|asia|biz|cat|coop|info|int|jobs|mobi|museum|name|post|pro|tel|travel|xxx|ac|ad|ae|af|ag|ai|al|am|an|ao|aq|ar|as|at|au|aw|ax|az|ba|bb|bd|be|bf|bg|bh|bi|bj|bm|bn|bo|br|bs|bt|bv|bw|by|bz|ca|cc|cd|cf|cg|ch|ci|ck|cl|cm|cn|co|cr|cs|cu|cv|cx|cy|cz|dd|de|dj|dk|dm|do|dz|ec|ee|eg|eh|er|es|et|eu|fi|fj|fk|fm|fo|fr|ga|gb|gd|ge|gf|gg|gh|gi|gl|gm|gn|gp|gq|gr|gs|gt|gu|gw|gy|hk|hm|hn|hr|ht|hu|id|ie|il|im|in|io|iq|ir|is|it|je|jm|jo|jp|ke|kg|kh|ki|km|kn|kp|kr|kw|ky|kz|la|lb|lc|li|lk|lr|ls|lt|lu|lv|ly|ma|mc|md|me|mg|mh|mk|ml|mm|mn|mo|mp|mq|mr|ms|mt|mu|mv|mw|mx|my|mz|na|nc|ne|nf|ng|ni|nl|no|np|nr|nu|nz|om|pa|pe|pf|pg|ph|pk|pl|pm|pn|pr|ps|pt|pw|py|qa|re|ro|rs|ru|rw|sa|sb|sc|sd|se|sg|sh|si|sj|Ja|sk|sl|sm|sn|so|sr|ss|st|su|sv|sx|sy|sz|tc|td|tf|tg|th|tj|tk|tl|tm|tn|to|tp|tr|tt|tv|tw|tz|ua|ug|uk|us|uy|uz|va|vc|ve|vg|vi|vn|vu|wf|ws|ye|yt|yu|za|zm|zw)\b/?(?!@)))"""
re.findall(WEB_URL_REGEX, text)

InformationsquelleAutor Artem Bernatskyi

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.