Wie Vergleiche ich zwei Satz Saiten für eine ähnlichkeit in python?

Zunächst möchte ich sagen, dass ich mit tweepy. Ich fand einen Weg heraus zu filtern, die dieselbe Zeichenfolge, aber ich habe eine harte Zeit herausfiltern ähnliche Zeichenfolgen.

Ich habe zwei Satz Saiten, die ich brauche, um zu vergleichen (Tweepy keyword ="Donald Trump")

String 1: "Trump Administration Dismisses Surgeon General Vivek Murthy (http)PUGheO7BuT5LUEtHDcgm"

String 2: "Trump Administration Dismisses Surgeon General Vivek Murthy (http)avGqdhRVOO"

Wie Sie sehen können, Sie sind ähnlich, aber nicht identisch. Ich musste einen Weg finden, um die beiden zu vergleichen und erhalten Sie einen number-Wert zu entscheiden, ob die zweite tweet Hinzugefügt werden sollten, die ersten. Ich dachte ich hätte die Lösung, wenn ich SequenceMatcher() aber es immer ausgedruckt 0.0. Ich hatte erwartet, dass es größer als 0.5. Allerdings Sequenz Matcher nur scheint zu funktionieren für ein Wort-strings (korrigiert mich wenn ich falsch Liege).

Jetzt sind Sie wahrscheinlich denken, "nur splice aus der http-Portionen". Das wird nicht funktionieren, weil es nicht berücksichtigt, für Menschen, die tweet-Namen wie @Autos: xyz zyx und @LKW: xyz zyx

Gibt es eine Möglichkeit, vergleichen Sie die beiden Texte? Es sollte einfach sein, aber für einige Grund die Lösung entzieht sich mir. Ich habe gerade gelernt, python, vor einer Woche. Fühlt sich immer noch komisch durch Einrückungen zu erkennen zwischen dem, was in einer Funktion oder nicht.

Es gibt eine Tonne von Werkzeugen in der Quallen Paket. (Ich bin nicht im Zusammenhang mit diesem Projekt.)

InformationsquelleAutor LuxLunae | 2017-04-22

Schreibe einen Kommentar