Levenshtein-Distanz: wie man besser behandeln Wörter swapping Positionen?

Hatte, habe ich einige Erfolge vergleichen von strings unter Verwendung des PHP - die levenshtein - Funktion.

Jedoch, für zwei Zeichenfolgen, die Teilstrings enthalten, die Positionen getauscht haben, zählt der Algorithmus diejenigen, die als ganz neue Teilstrings.

Beispiel:

levenshtein("The quick brown fox", "brown quick The fox"); //10 differences

werden behandelt, als hätte er weniger in gemeinsamen als:

levenshtein("The quick brown fox", "The quiet swine flu"); //9 differences

Ich würde lieber ein Algorithmus, der sah, dass der ersten beiden wurden mehr ähnlich.

Wie könnte ich mich über die kommenden up mit einem Vergleich-Funktion, die identifizieren können Teilstrings, die gewechselt haben, die position als getrennte zu-Bearbeitungen?

Einen möglichen Ansatz habe ich schon gedacht ist, um alle Wörter in der Zeichenfolge in alphabetischer Reihenfolge, bevor der Vergleich. Dass die ursprüngliche Reihenfolge der Wörter völlig aus dem Vergleich. Ein Nachteil jedoch ist, dass eine änderung nur den ersten Buchstaben eines Wortes können eine viel grössere Störung als eine änderung eines einzigen Buchstaben führen sollte.

Was ich versuche zu erreichen, ist ein Vergleich der beiden Tatsachen über Menschen, die frei sind text-strings, und zu entscheiden, wie wahrscheinlich es ist, diese Fakten zu zeigen die gleiche Tatsache. Die Fakten könnte die Schule jemand besucht, der name von Ihrem Arbeitgeber oder Verleger zum Beispiel. Zwei Datensätze haben die gleiche Schule unterschiedlich geschrieben, Wörter in einer anderen Reihenfolge, zusätzliche Wörter usw., also das matching ist ein wenig unscharf, wenn wir eine gute Vermutung, dass Sie auf die gleiche Schule. So weit es funktioniert sehr gut für die Rechtschreibfehler (ich bin mit einem phoenetic Algorithmus ähnlich metaphone auf der Oberseite von diesem), aber sehr schlecht, wenn Sie wechseln Sie die Reihenfolge der Wörter um, die offenbar gemeinsam in einer Schule: "xxx college" vs "college of xxx".

Was ist das Ziel, das Sie erreichen wollen? Levenshtein hat eine theoretisch einfache Methode, zu sagen, kleine Unterschiede und bestimmt zu erkennen, zum Beispiel Tippfehler. Wenn Ihr Ziel anders ist, müssen Sie zuerst finden Sie heraus, eine theoretische Möglichkeit zu sagen, die "Differenz" in Ihrer Bedeutung zwischen den beiden string, dann ist die Umsetzung nur noch eine Frage der Verarbeitung.

InformationsquelleAutor thomasrutter | 2009-05-06

20

N-Gramm

Verwenden N-Gramm, die Unterstützung , die aus mehreren Zeichen Umstellungen, die über den ganzen text.

Die Allgemeine Idee ist, dass Sie aufgeteilt werden die beiden Saiten in Frage, in allen möglichen 2-3 Zeichen, Teilstrings (n-Gramm) und behandeln Sie die Anzahl der gemeinsamen n-Gramme zwischen den beiden Zeichenfolgen als Ihre ähnlichkeit Metrik. Dies kann dann normalisiert durch Division der gemeinsame Zahl durch die Gesamtzahl der n-Gramme in der längeren Zeichenfolge. Dies ist trivial zu berechnen, aber ziemlich mächtig.

Für die Beispiel-Sätze:
```
A. The quick brown fox
B. brown quick The fox
C. The quiet swine flu
```
A-und B-teilen 18 2-Gramm

A-und C-teilen nur 8 2-Gramm

aus 20 insgesamt möglich.

Dies wurde diskutiert in mehr detail in der Gravano et al. Papier.

tf-idf-und Cosinus-ähnlichkeit

Einer nicht so trivialen alternative, aber fest verankert in der Informationstheorie wäre die Verwendung von term term Frequenz–inverse Dokument-Frequenz (tf-idf) Wiegen die Münzen, konstruieren Satz Vektoren und verwenden Sie dann Kosinus-ähnlichkeit, wie die ähnlichkeit Metrik.

Den Algorithmus ist:
1. Berechnen Sie 2-Zeichen-token-Frequenz (tf) pro Satz.
2. Berechnen Sie die inverse Satz von Frequenzen (idf), der Logarithmus eines Quotienten der Anzahl aller Sätze im Korpus (in diesem Fall 3) dividiert durch die Anzahl, wie oft ein bestimmtes token erscheint in allen Sätzen. In diesem Fall th wird in alle Sätze so, es hat null Informationsgehalt (log(3/3)=0).
3. Produzieren die tf-idf-matrix, die durch Multiplikation der entsprechenden Zellen in der tf-und idf-Tabellen.
4. Schließlich berechnen Kosinus-ähnlichkeit matrix für alle satzpaare, in denen A und B sind die GEWICHTE aus der tf-idf-Tabelle für die entsprechenden Token. Der Wertebereich ist von 0 (nicht ähnlich) bis 1 (gleich).
Levenshtein-änderungen und Metaphone -

Bezug auf andere Antworten. Damerau–Levenshtein modificication unterstützt nur die Umsetzung der zwei benachbarte Zeichen. Metaphone wurde entworfen, um zu entsprechen Wörter, die gleich klingen und nicht
für die ähnlichkeit matching.
- Können wir machen, eine Mischung aus beidem? teilen Sie die Begriffe in die bigrame, dann finden Sie die Kosinus-ähnlichkeit ?
- gute Frage und die Antwort ist ja, siehe ii.nlm.nih.gov/MTI/Details/trigram.shtml
- Vielen Dank für das erzählen mich über n-Gramm zurück, wenn Sie dies schrieb. Ich habe verwendet n-Gramme, die auf Wörter (und nicht als einzelne Zeichen) auf eine Reihe von verschiedenen Projekten, da diese.
InformationsquelleAutor Tomasz
9

Einfach. Verwenden Sie einfach die Damerau-Levenshtein Abstand auf die Worte statt Buchstaben.
- Meinst du das: "für jedes Wort in Eine, finden die levenshtein-Distanz, um jedes Wort in B, dann fügen Sie Ihre Ergebnisse"?
- Nein, ich meine, die drehen jedes Wort in ein symbol: dh = a, quick = b, Braun = c, usw. Und dann führen Sie den levenshtein-Algorithmus auf.
- Nein, ich sehe, was du meinst, du meinst Implementierung der levenshtein-Algorithmus vergleicht die Worte eher als die Briefe. Leider ist diese noch nicht für mich arbeiten, als zwei Worte, die swap-position mit jeder anderen würde trotzdem die gleiche Wirkung wie das löschen ein Wort und ein ganz anderes Wort.
- Ie levenshtein("abcd", "cbad") ist noch kein ähnlicher, als levenshtein("abcd", "abxy")
- Dann könnte man auf ähnliche algorithmen wie en.wikipedia.org/wiki/Damerau%E2%80%93Levenshtein_distance
- Ich mag den Klang dieses Damerau-Levenshtein-Distanz (mit Transpositionen). Nur, was ich bin besorgt, jetzt ist, wie viel langsamer es geht um die Implementierung in den PHP-code. Danke für den Tipp!
InformationsquelleAutor Unknown
6

Explodieren zu Räumen, Sortieren Sie das array, implodieren, dann tun die Levenshtein.
- Dies erkennt keine Transpositionen.
InformationsquelleAutor rooskie
3

Können Sie auch versuchen, diese. (nur eine zusätzliche Anregung)
```
$one = metaphone("The quick brown fox"); //0KKBRNFKS
$two = metaphone("brown quick The fox"); //BRNKK0FKS
$three = metaphone("The quiet swine flu"); //0KTSWNFL

similar_text($one, $two, $percent1); //66.666666666667
similar_text($one, $three, $percent2); //47.058823529412
similar_text($two, $three, $percent3); //23.529411764706
```
Dies zeigt, dass die 1. und 2. ähnlicher sind, als einer und drei und zwei und drei.
- Ich denke, dass diese Verbesserung in der Punktzahl mehr aus der Verwendung von similar_text anstatt von metaphone. Ich bin derzeit mit einem phoenetic-Algorithmus sehr ähnlich metaphone. Ich habe nicht viel sah in den Algorithmus similar_text verwendet. Ich war unter dem Eindruck, es war viel weniger effizient als die levenshtein, aber ich denke, Sie bekommen, was Sie bezahlen. Ich könnte es versuchen.
- Ich habe versucht, mit nur ähnlichen text, und es gab ein viel geringerer Wert und ein niedrigerer Punktzahl zwischen eins und zwei, als eins und drei.
InformationsquelleAutor Ólafur Waage
3

Ich habe Implementierung der levenshtein-in einer Rechtschreibprüfung.

Was Sie für Fragen zählt Transpositionen als 1 Bearbeiten.

Dies ist einfach, wenn Sie nur wollen, um zu zählen Transpositionen aus einem Wort entfernt. Allerdings ist für die Umsetzung der Wörter 2 oder mehr entfernt, die neben der Algorithmus ist worst-case-Szenario !(max(wordorder1.length(), wordorder2.length())). Hinzufügen eines nicht-linearen subalgorithm zu einer bereits quadratischen Algorithmus ist keine gute Idee.

Dies ist, wie es funktionieren würde.
```
if (wordorder1[n] == wordorder2[n-1])
{
  min(workarray[x-1, y] + 1, workarray[x, y-1] + 1, workarray[x-2, y-2]);
}
  else
{
  min(workarray[x-1, y] + 1, workarray[x, y-1] + 1);
}
```
NUR für berühren Transpositionen. Wenn Sie möchten, dass alle Transpositionen, müsste man für jede position arbeiten Sie sich rückwärts von diesem Punkt vergleichen
```
1[n] == 2[n-2].... 1[n] == 2[0]....
```
Damit Sie sehen, warum Sie nicht auch in die standard-Methode.

InformationsquelleAutor
1

Nehmen diese Antwort und nehmen Sie die folgende änderung:
```
void match(trie t, char* w, string s, int budget){
  if (budget < 0) return;
  if (*w=='\0') print s;
  foreach (char c, subtrie t1 in t){
    /* try matching or replacing c */
    match(t1, w+1, s+c, (*w==c ? budget : budget-1));
    /* try deleting c */
    match(t1, w, s, budget-1);
  }
  /* try inserting *w */
  match(t, w+1, s + *w, budget-1);
  /* TRY SWAPPING FIRST TWO CHARACTERS */
  if (w[1]){
    swap(w[0], w[1]);
    match(t, w, s, budget-1);
    swap(w[0], w[1]);
  }
}
```
Dies ist für die Wörterbuch-Suche in einem trie, sondern um die Anpassung an ein einzelnes Wort, es ist die gleiche Idee. Du machst das branch-and-bound, und an jedem Punkt, können Sie jede änderung, die Sie mögen, so lange wie Sie geben es Preis.
- Dieses sieht wie es könnte sehr nützlich sein, obwohl es dauert ein wenig Forschung auf meinem Teil, um herauszufinden, wie es funktioniert. Ich habe nicht verwendet ein Trie vor, also werde ich untersuchen.
- Sie brauchen nur die trie wenn Sie auf der Suche nach einem Wörterbuch. Wenn Sie nur der Vergleich von zwei strings (oder Listen von Dingen), die "foreach" wird eine einfache, block-Anweisung. Recursive branch-and-bound ist ein ziemlich nützliches Schweizer Messer.
InformationsquelleAutor Mike Dunlavey
1

Beseitigen Sie doppelte Wörter zwischen den beiden strings, und verwenden Sie dann die Levenshtein -.

InformationsquelleAutor JRL
1

ich glaube, das ist ein gutes Beispiel für die Verwendung eines Vektor-Raum-Suchmaschine.

in dieser Technik, jedes Dokument, das im wesentlichen wird ein Vektor mit so vielen Dimensionen, wie es unterschiedliche Wörter im gesamten Korpus; ähnliche Dokumente dann besetzen die angrenzenden Gebiete in diesem Vektorraum. eine schöne Eigenschaft dieses Modells ist, dass Abfragen auch nur Unterlagen: um eine Anfrage zu beantworten, die Sie einfach berechnen Sie Ihre position im Vektor-Raum, und Ihre Ergebnisse sind die nächsten Dokumente, die Sie finden können. ich bin sicher, es gibt hol-und-go-Lösungen für PHP gibt.

zu fuzzify Ergebnisse von Vektorraum, könntest du überlegen, das zu tun Wortstamm /ähnliche natürlicher Sprache Verarbeitung Technik, und verwenden Sie die levenshtein-zu konstruieren sekundären Abfragen für ähnliche Wörter, die auftreten, in Ihrem Allgemeinen Wortschatz.

InformationsquelleAutor flow
0

Wenn der erste string ist und der zweite ist B:
1. Split A und B in Worten
2. Für jedes Wort Ein, findet das am besten passende Wort in B (mit levenshtein)
3. Entfernen Sie das Wort aus B und setzen Sie Sie in B* zur gleichen index wie das passende Wort in A.
4. Vergleichen Sie jetzt A und B*
Beispiel:
```
A: The quick brown fox
B: Quick blue fox the
B*: the Quick blue fox
```
Könnte man verbessern, Schritt 2, indem Sie es in mehreren Durchgängen, Suche nur exakte Treffer auf den ersten, dann finden enge matches für die Worte in Einem, dass nicht ein Begleiter im B* - doch, dann weniger enge Spiele, etc.

InformationsquelleAutor Bart van Heukelom

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

N-Gramm

tf-idf-und Cosinus-ähnlichkeit

Levenshtein-änderungen und Metaphone -