Algorithmus zu finden, der am meisten common substrings in einem string

Gibt es Algorithmus, der verwendet werden kann, finden die häufigsten Sätze (oder Zeichenketten) in einem string? Zum Beispiel die folgende Zeichenfolge wäre das "Hallo Welt" als gemeinsame zwei-Wort-Satz:

"hello world this is hello world. hello world repeats three times in this string!"

In der Zeichenfolge oben, die häufigste string (nachdem die leere Zeichenfolge Zeichen, die wiederholt eine unendliche Anzahl von Zeiten) wäre das Leerzeichen .

Gibt es eine Möglichkeit um eine Liste von gemeinsamen Teilzeichenfolgen in dieser Zeichenfolge, aus den gängigsten zu den am wenigsten verwendeten?

Definieren, was meinst du mit phrase, die substring - "l" ist häufiger dann "hello world". Und natürlich "hello" ist mindestens so Häufig wie "hello world".
Ich meinte wirklich "die meisten common substring in einem string".
Dann werden die meisten common substring die leere Zeichenkette (wiederholt sich unendliche Male). Die Sekunde danach ist das häufigste Zeichen. Finden es kann leicht getan werden mit einem Histogramm in O(n).
Ich glaube nicht, dass Sie wirklich verstanden, amit ' s Kommentar. Sie schreiben, "In dem string vor, der häufigste string wäre hello world"; aber der Teilstring hello world tritt nur dreimal, in der Erwägung, dass die substring - l tritt neun mal. (Und is vier mal vorkommt. Und " " tritt fünfzehn mal.)
Nach dem Auffinden der häufigste Charakter, würde ich versuchen, die häufigsten zwei-Zeichen-strings, die begann mit jedem Charakter. Dann würde ich versuchen, die häufigsten drei-Zeichen-strings, die begann mit den gängigsten zwei-Zeichen-strings, und so weiter.
Ich reparierte den Fehler - vielen Dank für die Klarstellung!
"" ist das am meisten common substring, es wiederholt sich unendliche Male.
en.wikipedia.org/wiki/Suffix_tree#Functionality und en.wikipedia.org/wiki/Suffix_array wenn Sie denken, große Streicher bei 10000 oder 100000 Maßstab.
"Hallo Welt" - Antworten deutet darauf hin, dass Sie wollen, finden Sie die längste doppelten Teilstring
dann bedeutet es, dass die längste Zeichenkette, die angezeigt wird, zweimal? Was ist mit diesem Beispiel "AAAAAAAAAAAAAAAAAAAAAAA hello world AAAAAAAAAAAAAAAAAAAAAAA hello world hello world". Hier die am häufigsten vorkommenden Teilstring 'A' und den längsten substring (Auftritt mindestens zweimal) ist "AAAAAAAAAAAAAAAAAAAAAAA". Was muss meine Funktion zurückgeben?
es gibt "AA..." das ist korrekt wenn die Antwort auf die erste Frage ist "hello world" und nicht "l" das ist das gemeinsame Teilzeichenfolge nach " ".

InformationsquelleAutor Anderson Green | 2013-02-03

algorithm language-agnostic

14

Dies ist als Aufgabe ähnlich der Nussinov-Algorithmus ist, und sogar noch einfacher, da wir nicht zulassen, dass irgendwelche Lücken, Einfügungen oder Unterschiede in der Ausrichtung.

Für die Schnur mit der Länge N, definieren Sie eine F[-1 .. N, -1 .. N] Tabelle und füllen Sie mit den folgenden Regeln:
```
  for i = 0 to N
    for j = 0 to N
      if i != j
        {
          if A[i] == A[j]
            F[i,j] = F [i-1,j-1] + 1;
          else
            F[i,j] = 0;
        }
```
Beispielsweise für B A O B A B:

Dieser läuft in O(n^2) Zeit. Die größten Werte in der Tabelle nun auf den end-Positionen der längste self-matching subquences (ich - das Ende einer Begebenheit, j - anderen). Am Anfang, das array wird angenommen, dass null initialisiert werden. Ich habe Hinzugefügt-Bedingung ausschließen, die Diagonale ist die längste, aber wohl nicht interessant-selbst-übereinstimmen.

Denken mehr, diese Tabelle ist symmetrisch über die Diagonale, so ist es genug, um zu berechnen, nur die Hälfte. Auch das array mit null initialisiert, so dass die Zuweisung von null ist redundant. Bleibt
```
  for i = 0 to N
    for j = i + 1 to N
      if A[i] == A[j]
         F[i,j] = F [i-1,j-1] + 1;
```
Kürzer, aber möglicherweise schwieriger zu verstehen. Die berechnete Tabelle enthält alle Spiele, kurze und lange. Sie können weitere Filterung, wie Sie benötigen.

Im nächsten Schritt müssen Sie sich zu erholen Zeichenfolgen, die aus dem nicht-null-Zellen, die nach oben und nach Links von der Diagonale. Während dieser Schritt ist auch trivial, um einige hashmap, um die Anzahl der selbst-ähnlichkeit entspricht, für die gleiche Zeichenfolge. Mit normalen string und normale minimale Länge nur kleine Anzahl von Zellen in einer Tabelle verarbeitet werden, wird durch diese Karte.

Ich denke, dass mit hashmap direkt tatsächlich erfordert O(n^3), wie die key-strings an das Ende des Zugangs verglichen werden müssen, irgendwie für Gleichstellung. Dieser Vergleich ist wahrscheinlich O(n).
- Nicht sicher, ob dies die Frage beantwortet. Dies ist eine einfache Methode, um die längste self-übereinstimmenden Teilstrings. Die Frage ist für die meisten gängigen self-matching-substring.
- Ich habe Hinzugefügt, Erklärung dies kann leicht getan werden, während der string-recovery-Phase. Der Algorithmus ist effizient, wenn nur strings über dem bestimmten Schwellenwert, sind interessant.
InformationsquelleAutor
5

Python. Dies ist etwas quick and dirty, mit den Daten Strukturen zu tun, die meisten heben.
```
from collections import Counter
accumulator = Counter()
text = 'hello world this is hello world.'
for length in range(1,len(text)+1):
    for start in range(len(text) - length):
        accumulator[text[start:start+length]] += 1
```
Den Zähler Datenstruktur ist eine hash-backed Wörterbuch-ausgelegt für das zählen, wie viele Male haben Sie etwas gesehen. Hinzufügen, um einen nicht vorhandenen Schlüssel erstellen wird es, beim abrufen eine nicht vorhandene Schlüssel geben Sie null anstelle von ein Fehler. So alle Sie tun müssen ist, Durchlaufen alle Teilstrings.
- Sie können for start in range(len(text) - length) und töten die if.
- Wahr. Spart einige ops auch.
- um die Liste zu generieren, rufen Sie: accumulator.most_common()
- warum es downvoted? Der code.
- Diese Lösung ist viel einfacher zu Lesen
- Wahrscheinlich, weil OP war auf der Suche nach einem Algorithmus, eher als eine Umsetzung. Wenn ich geschrieben "ich brauche einen Algorithmus für eine Art das ist O(n log(n)) ist aber nicht beeinträchtigen überwiegend sortierten Daten ist, würde ich lieber sehen, "Check out en.wikipedia.org/Timsort" als "Java-Art ist bereits optimiert für das use case."--auch wenn es Timsort-basiert.
InformationsquelleAutor Jim Gray

nur pseudo-code, und das ist vielleicht nicht die schönste Lösung, aber würde ich lösen wie diese:

function separateWords(String incomingString) returns StringArray{
  //Code
}

function findMax(Map map) returns String{
  //Code
}

function mainAlgorithm(String incomingString) returns String{
    StringArray sArr = separateWords(incomingString);
    Map<String, Integer> map; //init with no content
    for(word: sArr){
        Integer count = map.get(word);
        if(count == null){
            map.put(word,1);
        } else {
            //remove if neccessary
            map.put(word,count++); 
        }
   }
   return findMax(map);
}

Wo die map enthalten kann ein Schlüssel-Wert-Paare, wie in der Java-HashMap.

InformationsquelleAutor CsBalazsHungary

Perl, O(n²) Lösung

my $str = "hello world this is hello world. hello world repeats three times in this string!";

my @words = split(/[^a-z]+/i, $str);
my ($display,$ix,$i,%ocur) = 10;

# calculate

for ($ix=0 ; $ix<=$#words ; $ix++) {
  for ($i=$ix ; $i<=$#words ; $i++) {
    $ocur{ join(':', @words[$ix .. $i]) }++;
  }
}

# display 

foreach (sort { my $c = $ocur{$b} <=> $ocur{$a} ; return $c ? $c : split(/:/,$b)-split(/:/,$a); } keys %ocur) {
  print "$_: $ocur{$_}\n";
  last if !--$display;
}

zeigt die 10 besten Wertungen der meisten gemeinsamen sub-strings (im Falle eines Unentschieden, zeigen die längste Kette von Worten erste). Ändern $display zu 1 zu haben, nur das Ergebnis.
Es gibt n(n+1)/2 Iterationen.

InformationsquelleAutor Ring Ø

Da für jeden substring einen String der Länge >= 2 der text enthält mindestens einen substring der Länge 2 mindestens so oft, brauchen wir nur zu untersuchen, Teilstrings der Länge 2.

val s = "hello world this is hello world. hello world repeats three times in this string!"

val li = s.sliding (2, 1).toList
//li: List[String] = List(he, el, ll, lo, "o ", " w", wo, or, rl, ld, "d ", " t", th, hi, is, "s ", " i", is, "s ", " h", he, el, ll, lo, "o ", " w", wo, or, rl, ld, d., ". ", " h", he, el, ll, lo, "o ", " w", wo, or, rl, ld, "d ", " r", re, ep, pe, ea, at, ts, "s ", " t", th, hr, re, ee, "e ", " t", ti, im, me, es, "s ", " i", in, "n ", " t", th, hi, is, "s ", " s", st, tr, ri, in, ng, g!)

val uniques = li.toSet
uniques.toList.map (u => li.count (_ == u))
//res18: List[Int] = List(1, 2, 1, 1, 3, 1, 5, 1, 1, 3, 1, 1, 3, 2, 1, 3, 1, 3, 2, 3, 1, 1, 1, 1, 1, 3, 1, 3, 3, 1, 3, 1, 1, 1, 3, 3, 2, 4, 1, 2, 2, 1)

uniques.toList(6)
res19: String = "s "

InformationsquelleAutor user unknown

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.