Guten Algorithmus und Datenstruktur für das suchen nach Wörtern mit fehlenden Buchstaben?

so muss ich schreiben, ein effizienter Algorithmus für das suchen nach Wörtern mit fehlenden Buchstaben in einem Wörterbuch und ich will, dass die Menge der möglichen Worte.

Zum Beispiel, wenn ich in th??e, ich könnte wieder diese, diese, Thema gibt.etc.

Ich Frage mich, ob jemand vorschlagen kann, einige Datenstrukturen Algorithmus ich verwenden soll.

Dank!

EDIT: EIN Trie ist auch Raum ineffizient und würde es zu langsam. Weitere Ideen, änderungen?

UPDATE: Es wird bis zu ZWEI Fragezeichen und wenn zwei Fragezeichen auftreten, Sie werden auftreten, in der Reihenfolge.

Derzeit bin ich mit 3 hash-Tabellen für die wenn es ist eine exakte übereinstimmung, 1 Fragezeichen, und 2 Fragezeichen.
Gegeben ein Wörterbuch, das ich hash-alle möglichen Worte. Zum Beispiel, wenn ich das Wort WORT. Ich hash-WORT ?ORD, W?RD, WO?D, WOR?, ??RD, W??D, WO??. in das Wörterbuch. Dann benutze ich eine link-Liste zu verknüpfen, die Kollisionen zusammen. Also sagen wir, hash(W?RD) = hash(STR?NG) = 17. hashtab(17) Punkt-zu-WORD-und WORD-Punkte-zu-STRING, weil es eine verknüpfte Liste.

Timing auf die Durchschnittliche lookup eines Wortes ist etwa 2e-6s. Ich bin auf der Suche, besser zu machen, vorzugsweise in der Größenordnung von 1e-9.

EDIT: ich habe nicht sah das problem wieder, aber es dauerte 0,5 Sekunden für 3m-Einträge Einfüge, und es dauerte 4 Sekunden für 3m-lookup-Einträge.

Dank!

Warum bist du nicht verwandelt diese in reguläre Ausdrücke und suchen? Was Versprechen Sie sich? Welche Erwartungen haben Sie? Welche Einschränkungen haben Sie?
Wie schnell würden reguläre Ausdrücke werden? Ich weiß, was Sie sind, aber ich weiß nicht, wie Sie tatsächlich funktioniert. Ich kann nur traverse durch das gesamte Wörterbuch, aber das wäre Theta(N). Ich Frage mich, ob ich besser machen kann.
Was bedeutet die Struktur des Wörterbuchs Aussehen?
Jetzt ist es nur eine text-Datei mit allen Wörtern in alphabetischer Reihenfolge aufgelistet.
Aktualisieren Sie die Frage. Bitte nicht kommentieren, eine Frage, die Sie besitzen. Sie eigenen in Frage. Sie können Sie aktualisieren, um alle Informationen enthalten. Bitte aktualisieren Sie die Frage.
wie viele Wörter im Wörterbuch? was ist der Bereich der Längen? was alphabet verwendet wird?
Warum genau würde eine space-ineffizient trie zu langsam? Rechnen Sie mit einer Ladung mehr Daten als Verfügbarer Speicher und schafft so viele Seitenfehler?
Es ist das Englisch-Wörterbuch, das zwischen 200 - 500k Wörter
Es klingt wie die Lösung, die Sie Hinzugefügt haben, die Frage ist äquivalent zu Anna ' s ersten Vorschlag (der hash), außer, dass Sie können unerwünschte Kollisionen. Wenn Sie wechseln Sie einfach zu Ihrem Vorschlag, den Sie verwenden werden, über die gleiche Menge an Speicher (also viele), aber Sie nicht haben, um zu überprüfen, die gesamte hash-Eimer für Kollisionen jeder Zeit, die Sie viel schneller.
1e-9 Sekunde pro Suche ist ein Milliarden Suchanfragen pro Sekunde. Der Computer in der Regel über die Uhren im Bereich von 1-3 Milliarden Takte pro Sekunde. Also selbst wenn man das pipelining zu berücksichtigen, und vorausgesetzt, keine Schleifen, das ist kaum realistisch.
Sind Sie zufällig machen ein scrabble AI? (Da gibt es maximal 2 Leerzeichen im Spiel...)
aber die Frage sagt die Rohlinge müssen benachbart sein, das ist nicht wahr, in Scrabble.
1e-9 ist einer Nanosekunde - das ist ungefähr so viel Zeit wie es dauert, einen normalen PC um zwei zahlen zu addieren. Es ist nichts falsch mit Ihrem Algorithmus, was Sie brauchen, ist ein super-computer.

InformationsquelleAutor SuperString | 2009-12-23

algorithm data-structures

66

Ich glaube in diesem Fall ist es am besten, nur verwenden Sie eine flache Datei, wo jedes Wort steht in einer Zeile. Mit diesem können Sie bequem nutzen die Leistung eines regulären Ausdrucks suchen, ist hoch optimiert und wird wahrscheinlich schlagen jede Daten-Struktur, die Sie entwickeln können, sich selbst für dieses problem.

Lösung #1: Die Verwendung Von Regex

Dieser arbeitet Ruby-code für dieses problem:
```
def query(str, data)    
  r = Regexp.new("^#{str.gsub("?", ".")}$")
  idx = 0
  begin
    idx = data.index(r, idx)
    if idx
      yield data[idx, str.size]
      idx += str.size + 1
    end
  end while idx
end

start_time = Time.now
query("?r?te", File.read("wordlist.txt")) do |w|
  puts w
end
puts Time.now - start_time
```
Die Datei wordlist.txt enthält 45425 Worte (Download hier). Die Ausgabe des Programms für die Abfrage ?r?te ist:
```
brute
crate
Crete
grate
irate
prate
write
wrote
0.013689
```
So dauert es nur 37 Millisekunden zu Lesen, ohne die ganze Datei zu finden, die alle Spiele drin. Und es skaliert sehr gut für alle Arten von Abfrage-Muster, auch dort, wo ein Trie ist sehr langsam:

Abfrage ????????????????e
```
counterproductive
indistinguishable
microarchitecture
microprogrammable
0.018681
```
Abfrage ?h?a?r?c?l?
```
theatricals
0.013608
```
Sieht dies schnell genug für mich.

Lösung #2: Regex mit Vorbereiteten Daten

Wenn Sie möchten, um noch schneller zu gehen, können Sie teilen Sie die Wortliste in strings, die Wörter enthalten, von gleicher Länge und nur die Suche die richtige ist, basierend auf Ihrer Abfrage Länge. Ersetzen Sie die letzten 5 Linien mit diesem code:
```
def query_split(str, data)
  query(str, data[str.length]) do |w|
    yield w
  end
end

# prepare data    
data = Hash.new("")
File.read("wordlist.txt").each_line do |w|
  data[w.length-1] += w
end

# use prepared data for query
start_time = Time.now
query_split("?r?te", data) do |w|
  puts w
end
puts Time.now - start_time
```
Erstellen der Daten-Struktur erfolgt nun über 0,4 sec, aber alle Abfragen sind etwa 10 mal schneller (je nach der Anzahl der Wörter mit Länge):
- ?r?te 0.001112 sec
- ?h?a?r?c?l? 0.000852 sec
- ????????????????e 0.000169 sec
Lösung #3: Eine Große Hashtable (Aktualisierten Anforderungen)

Da haben Sie verändert Ihren Anforderungen können Sie problemlos erweitern, auf Ihre Idee zu nutzen, nur eine große Hash-Tabelle, die enthält alle vorberechneten Ergebnisse. Aber anstatt zu arbeiten, um die Kollisionen selbst könnten Sie verlassen sich auf die Leistung eines ordnungsgemäß umgesetzt hashtable.

Hier erstellen Sie eine große Hash-Tabelle, wo jede mögliche Abfrage maps, um eine Liste der Ergebnisse:
```
def create_big_hash(data)
  h = Hash.new do |h,k|
    h[k] = Array.new
  end    
  data.each_line do |l|
    w = l.strip
    # add all words with one ?
    w.length.times do |i|
      q = String.new(w)
      q[i] = "?"
      h[q].push w
    end
    # add all words with two ??
    (w.length-1).times do |i|
      q = String.new(w)      
      q[i, 2] = "??"
      h[q].push w
    end
  end
  h
end

# prepare data    
t = Time.new
h = create_big_hash(File.read("wordlist.txt"))
puts "#{Time.new - t} sec preparing data\n#{h.size} entries in big hash"

# use prepared data for query
t = Time.new
h["?ood"].each do |w|
  puts w
end
puts (Time.new - t)
```
Ausgabe
```
4.960255 sec preparing data
616745 entries in big hash
food
good
hood
mood
wood
2.0e-05
```
Die query-performance ist O(1), es ist nur ein lookup in der Hashtabelle. Die Zeit, 2.0 e-05 ist wahrscheinlich unten der timer ist Präzision. Wenn es läuft 1000 mal, ich bekomme durchschnittlich 1.958 e-6 Sekunden pro Abfrage. Um es zu bekommen schneller, ich würde wechseln Sie zu C++ und verwenden Sie die Google Sparse Hash die ist extrem Speicher-effizient und schnell.

Lösung #4: Holen Sie Wirklich Ernst

Alle oben genannten Lösungen arbeiten und sollte gut genug für viele Anwendungsfälle. Wenn Sie wirklich wollen, ernst zu erhalten, und haben viel freie Zeit auf Ihre Hände, Lesen Sie einige gute Papiere:
- Versucht für die Ungefähre String-Matching - Wenn gut umgesetzt ist, versucht sehr kompakte Speicher-Anforderungen (50% weniger Platz als das Wörterbuch selbst), und sind sehr schnell.
- Agrep - Eine Schnelle Ungefähre Pattern-Matching-Tool - Agrep basiert auf einem neuen, effizienten und flexiblen algorithm for approximate string matching.
- Google-Scholar-Suche für Ungefähre string-matching - Mehr als genug zu Lesen zu diesem Thema.
- können wir es so machen, es läuft bei 1/1000, die Geschwindigkeit?
- vielleicht, aber nur, wenn Sie spezialisieren sich auf einige use-cases. Jetzt ist die Zeit, wo Sie sollten benchmark und notieren Sie, wie diese wirklich verwendet wird, dann Stimmen Sie für Ihren jeweiligen Arbeitsauslastung.
- Sie können zum Beispiel cache-aktuelle Ergebnisse, so dass, wenn die gleiche Abfrage zweimal verwendet wird, schauen Sie mal nach, in O(1).
- Für die Geschwindigkeit C und eine extrem schnelle engine für reguläre Ausdrücke (re2c.org ?).
- Sie können sich wahrscheinlich stash die gesamte Datei in den Speicher, so dass Sie nicht haben, um re-Lesen Sie es die ganze Zeit
- Wenn Sie wollen, dass es 1000 mal schneller ich schlage vor, Sie parallelise die Lösung. Teilen Sie Ihre datasets in 1000 Stücke verteilt auf 1000 Kerne. Ersetzen oder ändern Sie den ersten Schritt des Algorithmus zu Aufgabe geschickt nach rechts chunk/Kern. Lehnen Sie sich zurück und warten (nicht sehr lange). Whaddya bedeuten, dass Sie nicht haben 1000 Kerne ?
- so dass es bei 1/1000 der Geschwindigkeit, dauert es 1000 mal mehr..
- zumindest dies kann leicht getan werden 😉
- Ich war auf der Suche auf die Google Sparsh-Hash, und ich bin Art von neuen an C++, wie kann ich eigentlich den code verwenden gibt es? Muss ich die src in einem Ordner?
- Haben Sie einen Blick auf die README oder README.windows
- Hoppla Ihnen würde die bounty, aber war nicht online, sorry
InformationsquelleAutor
24

Angesichts der aktuellen Einschränkungen:
- Es werden bis zu 2 Fragezeichen
- Es gibt 2 Fragezeichen, erscheinen Sie zusammen
- Gibt es ~100.000 Wörter im Wörterbuch, die Durchschnittliche Wortlänge 6.
Habe ich zwei praktikable Lösungen für Sie:

Die schnelle Lösung: HASH

Können Sie ein hash-welche Tasten sind Ihre Wörter mit bis zu zwei '?', und die Werte werden in einer Liste passende Worte. Dieser hash wird mit rund 100,000 + 100,000*6 + 100,000*5 = 1,200,000 Einträge (wenn Sie 2 Fragezeichen, Sie brauchen nur den Ort zu finden, der erste...). Jeder Eintrag speichert eine Liste von Wörtern, oder eine Liste von Zeigern auf die vorhandenen Wörter. Wenn Sie speichern eine Liste von Zeigern, und wir gehen davon aus, dass es im Durchschnitt weniger als 20 Wörter matching jedes Wort mit zwei '?', dann wird der zusätzliche Speicher ist kleiner als 20 * 1.200.000 werden = 24.000.000 ist.

Wenn jeder Zeigergröße 4 bytes, dann der Speicherbedarf ist hier (24.000.000 ist+1.200.000 werden)*4 bytes = 100,800,000 Byte ~= 96 mega-Byte.

Fazit dieser Lösung:
- Speicherverbrauch: ~96 MB
- Zeit für jede Suche: berechnen einer hash-Funktion, und nach einem Zeiger. O(1)
Hinweis: wenn Sie möchten, verwenden Sie einen hash, der eine kleinere Größe, die Sie können, aber dann ist es besser zu sparen, eine ausgeglichene Suchbaum, in dem jeder Eintrag statt einer verknüpften Liste, für eine bessere Leistung.

Die Raum-versierte, aber immer noch sehr schnell-Lösung: TRIE variation

Diese Lösung verwendet die folgende Beobachtung:

Wenn die'? ' - Zeichen am Ende des Wortes, trie wäre das eine gute Lösung.

Die Suche im trie suchen würde, an der Länge des Wortes, und für die letzten paar Buchstaben, eine DFS-Traversierung bringen würde, alle Endungen.
Sehr schnell, und sehr Speicher-versierte Lösung.

So können nutzen diese Beobachtung, um etwas zu bauen, zu arbeiten, genau wie diese.

Kann man darüber nachdenken, jedes Wort, das Sie in dem Wörterbuch, wie ein Wort endet mit @ (oder jedes andere symbol, das nicht vorhanden ist in deinem Wörterbuch).
So ist das Wort 'space' wäre 'space@'.
Nun, wenn Sie drehen Sie jedes der Wörter, die mit dem ' @ ' - Zeichen, erhalten Sie die folgende:
```
space@, pace@s, ace@sp, *ce@spa*, e@spac
```
(kein @ als ersten Buchstaben).

Wenn Sie alle diese Varianten in einem TRIE, können Sie problemlos das Wort finden Sie suchen bei der Länge des Wortes, durch 'drehen' zu deinem Wort.

Beispiel:
Sie möchten herausfinden, alle Wörter, die fit 's??ce' (einer von Ihnen ist der Raum, der andere ist Scheibe).
Sie bauen das Wort: s??ce@, und drehen Sie es so, dass die ? Zeichen ist am Ende. d.h. 'ce@s -??'

Alle von der rotation Variationen gibt es in der Marina, und insbesondere 'ce@spa' (die mit * gekennzeichneten oben). Nachdem der Anfang gefunden ist - Sie müssen gehen über alle Fortsetzungen in die Länge zu, und speichern Sie Sie. Dann müssen Sie, um Sie zu drehen, wieder so, dass die @ ist der Letzte Brief, und walla - Sie haben alle Begriffe, die Sie gesucht haben!

Fazit dieser Lösung:
- Speicherverbrauch:
  Für jedes Wort, alle seine Rotationen erscheinen in der Marina. Durchschnittlich *6 von der Größe des Speichers gespeichert ist, in der trie. Die trie Größe *3 (nur geraten...) der Raum gespeichert drin. So die insgesamt notwendigen Raum für diese versuche ist 6*3*100,000 = ist 1.800.000 Wörter ~= 6.8 mega-Byte.
- Zeit für jede Suche:
  - drehen des Wortes: O(word length)
  - Suche, die Ihren Anfang in der Marina: O(word length)
  - gehen über alle von den Endungen: O(Anzahl der Treffer)
  - drehen der enden: O(Gesamtlänge der Antworten)
  Zusammenfassend, es ist sehr sehr schnell, und hängt von der Wortlänge * kleine Konstante.
Zusammenfassend...

Die zweite Wahl, hat eine gute Zeit/Platz-Komplexität und wäre die beste option für Sie zu verwenden. Es gibt ein paar Probleme mit der zweiten Lösung (in diesem Fall möchten Sie vielleicht die Verwendung der ersten Lösung):
- Komplexer zu implementieren. Ich bin mir nicht sicher, ob es Programmiersprachen mit versucht, integrierte out of the box. Wenn es nicht - es bedeutet, dass müssen Sie es selbst implementieren...
- Nicht gut skalieren. Wenn Sie morgen entscheiden, dass Sie brauchen, Ihr Fragezeichen zu verbreiten alle über das Wort, und nicht unbedingt miteinander verbunden, Sie müssen schwer glauben, wie fit die zweite Lösung. Im Fall der ersten Lösung - es ist ganz einfach, zu verallgemeinern.
- dies ist eine sehr schöne Antwort
- Tolle Antwort. Nur zu dokumentieren, - den trie-Methode ist bekannt als der permuterm index-Methode, und ist sehr gut beschrieben in der Intro IR-Buch unter : nlp.stanford.edu/IR-book/html/htmledition/...
InformationsquelleAutor Anna
22

Mir dieses problem klingt wie eine gute Passform für eine Trie Datenstruktur. Geben Sie das gesamte Wörterbuch in Ihre versuche, und dann das Wort nachschlagen. Für einen fehlenden Buchstaben, die Sie haben würde, um zu versuchen, alle sub-versucht, das sollte relativ einfach mit einer rekursiven Ansatz.

BEARBEITEN: ich schrieb eine einfache Implementierung dieser in Ruby nur jetzt: http://gist.github.com/262667.
- Wenn Sie eine Reihe von Fragezeichen hintereinander, dass Algorithmus verschlechtert sich schnell.
- hmm also was wäre die beste Lösung
- wenn Sie viel ? dann haben Sie viele Antworten sowieso (es sei denn, Ihr Wörterbuch ist sehr gering, was bedeutet, dass Sie nicht viele sub versucht es trotzdem), es ist nicht klar für mich, dass dies aber schlecht mit mehreren ? bin ich etwas fehlt?
- Von dem, was ich hier zu sehen, Trie ist gut zum nachschlagen, aber wäre das wirklich schneller als eine HashMap?
- Eine HashMap würde wahrscheinlich schneller sein, aber verwenden Sie (viel?) mehr Arbeitsspeicher. Je nach Größe Ihres Wörterbuchs und der RAM könnte auch zu Problemen führen. Es sei denn, Sie benötigen diese für die Produktion code (im Gegensatz zu Hausaufgaben, usw.) Sie können wahrscheinlich wählen Sie entweder.
- Hmm, wie würde Sie schreiben, das in C++? Ich fand einige code online, aber es ist nicht gut dokumentiert, so kann ich nicht verstehen.
- Vielen Dank für die trie-Implementierung! Es ist wirklich sehr schnell, wenn Sie nicht zählen die Baum-building-Phase. Ich Frage mich, wie man am besten beschäftigen sich mit worst-case-Abfrage-Muster, wie ????????????????e
- Schön - selbst in der absoluten worst-case-Szenario, noch vermindert Sie in eine lineare Suche - Sie nie haben auf der Suche nach derselben Zeichenfolge mehr als einmal.
- Habe ich eine Gabel von Ihrem code, der erstellt eine separate Versuche für jedes Wort der Länge, die verwendet wahrscheinlich ein bisschen mehr Speicher, aber ist wahrscheinlich viel schneller, im schlimmsten Fall. gist.github.com/262815
- Können wir es so machen, dass es < log(n) wobei n die Länge des Wörterbuchs?
- Der code macht starken Gebrauch von Ruby Idiome... es ist im Grunde verwendet ein ruby-hash (assoziatives array), indiziert durch das nächste Zeichen (diejenigen geschrieben, die auf den Rändern in Wikipedia-Diagramm), in jedem TrieNode zu verfolgen, Kinder. Die Worte sind montiert .map { ... }, wie wir besteigen den Baum. In C++ könnte man vielleicht verwenden std::hash_map -- ich bin nicht sicher, wie viele Redewendungen vorkommen, dass wäre aber. cs.bu.edu/teaching/c/tree/trie hat einen überblick darüber, wie zu schreiben versuche in C, die möglicherweise oder möglicherweise nicht werden, ein wenig näher an C++ als Ruby. @martinus: Cool, meine erste Gabel! 🙂
- Wenn Sie einen Schwellenwert (über 30ish), nach der anstelle des Gebäudes aus dem trie, die Sie gerade erhalten eine Liste von Wörtern zu Scannen, können Sie die Speichernutzung nach unten, ohne dass die Geschwindigkeit sehr viel.
- Es wäre nicht schneller als eine hash-map, aber der hash-Karte verbraucht mehr Platz: Für jede Gruppe von Worten, die Sie brauchen 2*Wort.Länge der Einträge.
- Liebe SuperString, die ich sehr unterstützen, diese zu beantworten und hoffen, dass Sie entscheiden, zu gehen mit dem trie. Es bietet den besten Kompromiss zwischen Geschwindigkeit und Raum. Es ist eine allgemein bekannte Daten-Struktur, die Umsetzung sehr einfach (entweder es gibt bereits gute implemenataions oder es ist ausreichend, doc.). Plus: die Wartbarkeit und Lesbarkeit zu erhöhen, da man nicht gelesen haben, durch benutzerdefinierte Datenstruktur designs! Viel Glück Daten Wraith (+1)
InformationsquelleAutor DataWraith
16

Directed Acyclic Word Graph wäre die perfekte Datenstruktur für dieses problem. Es kombiniert die Effizienz eines trie (trie kann gesehen werden als ein Spezialfall der DAWG), aber viel mehr Platz effiziente. Typische DAWG nehmen Bruchteil der Größe, die nur-text-Datei mit dem Worte nehmen würde.

Aufzählen von Wörtern, die bestimmte Bedingungen erfüllen ist einfach und das gleiche wie in trie - Sie müssen durch den Graphen depth-first-Mode.
- Dies wäre schneller als ein Trie?
- +1. War überrascht zu sehen, die sonst niemand erwähnt hatte diese Optimierung...
- Ein versuche wäre ziemlich schnell schon, aber ein KUMPEL wird weniger Speicher verwenden (und somit nicht mehr lokal im Speicher), und so sucht Sie auf es vielleicht bessere cache-performance. Ein KUMPEL ist gebaut aus einem trie, obwohl, so müssen Sie zu bauen, die erste.
- Beachten Sie, dass Sie können auch kombinieren diese mit dem Ansatz der Intervall-Bäume. Sie können die Speicherung der Länge der längsten möglichen string mit jedem Scheitelpunkt, da Sie wissen, die Länge des resultierenden Strings vorne. Zum Beispiel die Worte: "abc" und abfg" gespeichert werden kann in einem Diagramm wie folgt: a: 4 b: 4 c: 3 f: 4 g: 4 Mit den Kanten: a -> b -> c -> f -> g Bei der Suche nach einer??g wissen Sie, dass Sie nicht zu suchen, für alles, was darüber hinaus "abc" und nur in die Richtung des "abfg". Der in diesem Beispiel nicht veranschaulicht sehr gut, aber ich hoffe, Sie bekommen die Idee.
InformationsquelleAutor el.pescado
9

Annas zweite Lösung ist die inspiration für diese ein.

Laden Sie zuerst alle Worte ins Gedächtnis und teilen Sie das Wörterbuch, in Abschnitte basierend auf word-Länge.

Für jede Länge, machen n Kopien ein array von Zeigern auf die Worte. Sortieren Sie die einzelnen array so, dass die Zeichenfolgen geschaltet werden, um , wenn gedreht wird, indem eine bestimmte Anzahl von Buchstaben. Angenommen, die original-Liste von 5-Buchstaben-Wörter ist [Flugzeug -, Apfel -, Raum -, Zug -, fröhlich, stapeln, hacks]. Dann werden Ihre fünf arrays von Zeigern werden:
```
rotated by 0 letters: [apple, hacks, happy, plane, space, stack, train]
rotated by 1 letter:  [hacks, happy, plane, space, apple, train, stack]
rotated by 2 letters: [space, stack, train, plane, hacks, apple, happy]
rotated by 3 letters: [space, stack, train, hacks, apple, plane, happy]
rotated by 4 letters: [apple, plane, space, stack, train, hacks, happy]
```
(Anstelle von Zeigern, die Sie verwenden können, ganze zahlen identifizieren die Wörter, wenn das spart Speicherplatz auf Ihrer Plattform.)

Suchen, Fragen Sie einfach, wie viel müssten Sie drehen Sie die Muster so, dass das Fragezeichen am Ende. Dann können Sie die binäre Suche in der entsprechenden Liste.

Wenn Sie brauchen, um zu finden, matches ??ppy, Sie hätte sich zu drehen, die durch 2 zu machen, ppy??. So suchen Sie in dem array, das ist in Ordnung, wenn gedreht wird durch 2 Buchstaben. Eine schnelle binäre Suche findet, dass "happy" ist das einzige Spiel.

Wenn Sie brauchen, um zu finden entspricht nach th??g, Sie hätte sich zu drehen, die durch 4 zu machen gth??. So suchen Sie in der Reihe 4, wo eine binäre Suche findet, dass es keine Spiele.

Dies funktioniert, egal wie viele Fragezeichen es gibt, solange Sie alle zusammen erscheinen.

Platzbedarf neben dem Wörterbuch selbst: Für Wörter der Länge N, das erfordert Platz für die (N-mal die Anzahl der Wörter der Länge N) Zeiger oder Ganzzahlen.

Zeit pro Suche: O(log n), wobei n die Anzahl der Wörter der entsprechenden Länge.

Implementierung in Python:
```
import bisect

class Matcher:
    def __init__(self, words):
        # Sort the words into bins by length.
        bins = []
        for w in words:
            while len(bins) <= len(w):
                bins.append([])
            bins[len(w)].append(w)

        # Make n copies of each list, sorted by rotations.
        for n in range(len(bins)):
            bins[n] = [sorted(bins[n], key=lambda w: w[i:]+w[:i]) for i in range(n)]
        self.bins = bins

    def find(self, pattern):
        bins = self.bins
        if len(pattern) >= len(bins):
            return []

        # Figure out which array to search.
        r = (pattern.rindex('?') + 1) % len(pattern)
        rpat = (pattern[r:] + pattern[:r]).rstrip('?')
        if '?' in rpat:
            raise ValueError("non-adjacent wildcards in pattern: " + repr(pattern))
        a = bins[len(pattern)][r]

        # Binary-search the array.
        class RotatedArray:
            def __len__(self):
                return len(a)
            def __getitem__(self, i):
                word = a[i]
                return word[r:] + word[:r]
        ra = RotatedArray()
        start = bisect.bisect(ra, rpat)
        stop = bisect.bisect(ra, rpat[:-1] + chr(ord(rpat[-1]) + 1))

        # Return the matches.
        return a[start:stop]

words = open('/usr/share/dict/words', 'r').read().split()
print "Building matcher..."
m = Matcher(words)  # takes 1-2 seconds, for me
print "Done."

print m.find("st??k")
print m.find("ov???low")
```
Auf meinem computer, das system-Wörterbuch ist von 909KB groß und nutzt dieses Programm über 3.2 MB Arbeitsspeicher zusätzlich zu dem, was es braucht, nur zum speichern der Wörter (Pointer sind 4 bytes). Für dieses Wörterbuch sind, könnten Sie schneiden, dass in der Hälfte durch Verwendung von 2-byte-Ganzzahlen anstelle von Zeigern, da es weniger als 2¹⁶ Wörter jeder Länge.

Maße: Auf meinem Rechner m.find("st??k") läuft in 0.000032 Sekunden m.find("ov???low") im 0.000034 Sekunden, und m.find("????????????????e") im 0.000023 Sekunden.

Durch das schreiben aus die binäre Suche anstelle der Verwendung class RotatedArray und die bisect Bibliothek, ich habe die ersten zwei zahlen nach unten zu 0.000016 Sekunden: doppelt so schnell. Implementierung in C++ würde es noch schneller.
- Würde nicht log(n) zu langsam? Kühlen Sie sah, dass wir verwenden können, Indizierung statt die Worte, um Platz zu sparen.
- Nein, in O(log n) ist super schnell. Die aktuellen top-stimmten Antwort ist O(n). Alle Antworten, die ich sehe, die behaupten, schneller als O(log n) um die Berechnung der Antworten auf alle möglichen Abfragen vor der Zeit.
- Beachten Sie, dass für dieses Wörterbuch, log2(n) ist 14 oder weniger.
- nette Idee! sehr schnelle und effiziente Speicher. der einzige Nachteil, den ich sehen kann, sind Abfragen wie ?h?a?r?c?l?.
InformationsquelleAutor Jason Orendorff
4

Als erstes benötigen wir eine Möglichkeit zum Vergleich der query-string mit einem bestimmten Eintrag. Nehmen wir an, eine Funktion mit regexes: matches(query,trialstr).

Einen O(n) Algorithmus wäre zu einfach verlaufen durch jeden Punkt der Liste (Wörterbuch vertreten sein werden als Liste in das Programm), Vergleich der einzelnen, um Ihre Abfrage-string.

Mit ein wenig pre-Berechnung, die Sie verbessern könnte dieses für eine große Anzahl von Abfragen durch den Bau einer zusätzlichen Liste der Wörter für jeden Buchstaben, so dass Ihr Wörterbuch Aussehen könnte:
```
wordsbyletter = { 'a' : ['aardvark', 'abacus', ... ],
                  'b' : ['bat', 'bar', ...],
                  .... }
```
Dies wäre jedoch nur von begrenztem nutzen, insbesondere, wenn Ihre query-string beginnt mit einem unbekannten Charakter. So können wir noch besser machen mit der Feststellung, wo Sie bei einem bestimmten Wort einen bestimmten Buchstaben liegt, generieren:
```
wordsmap = { 'a':{ 0:['aardvark', 'abacus'],
                   1:['bat','bar'] 
                   2:['abacus']},
             'b':{ 0:['bat','bar'],
                   1:['abacus']},
             ....
           }
```
Wie Sie sehen können, ohne mit Indizes, Sie werden am Ende enorm die Erhöhung der Menge des benötigten Speicherplatzes - jedoch speziell ein Wörterbuch mit n Wörtern und Durchschnittliche Länge m benötigen nm² Stauraum. Allerdings könnte man jetzt sehr schnell tun, Ihr Aussehen, bis man alle Wörter von jedem Satz, die mithalten können.

Die endgültige Optimierung (die Sie nutzen könnten, von der Fledermaus auf den naiven Ansatz) ist auch eine Trennung aller Wörter der gleichen Länge in separaten Läden, da Sie immer wissen, wie lange das Wort ist.

Diese version wäre O(kx), wo k die Nummer von bekannte Briefe in die Abfrage Wort, und x=x(n) ist die Zeit zu schauen, bis ein einzelnes Element in einem Wörterbuch der Länge n in Ihrer Umsetzung (in der Regel log(n).

Also mit einer endgültigen Wörterbuch wie:
```
allmap = { 
           3 : { 
                  'a' : {
                          1 : ['ant','all'],
                          2 : ['bar','pat']
                         }
                  'b' : {
                          1 : ['bar','boy'],
                      ...
                }
           4 : {
                  'a' : {
                          1 : ['ante'],
                      ....
```
Dann unser Algorithmus ist einfach:
```
possiblewords = set()
firsttime = True
wordlen = len(query)
for idx,letter in enumerate(query):
    if(letter is not '?'):
        matchesthisletter = set(allmap[wordlen][letter][idx])
        if firsttime:
             possiblewords = matchesthisletter
        else:
             possiblewords &= matchesthisletter
```
Am Ende, der Satz possiblewords enthält all die passenden Buchstaben.
- Glaubst du wirklich, das ist sinnvoll? Wenn Sie brauchen, um zu finden, die das Wort "aardvark", werden Sie jetzt zu finden, die Schnittmenge der Mengen {Wort | Wort[0] == 'a'}, {Wort | Wort[1] == 'a'}, {Wort | Wort[2] == 'r'}, ... und so weiter. Optimieren Sie ein wenig durch das starten der Berechnung mit der kleinsten Teilmengen aber wenn Ihre Teilmengen, die wiederum aus Recht groß zu sein...?
- Der Algorithmus, wie es von das Ende ist sehr effizient in Rechenleistung, aber nicht in Anforderungen an die Lagerung. Es hängt wirklich, wie groß die ursprünglichen 'Wörterbuch' ist.
- Dies ist im wesentlichen der gleiche Gedanke, den ich hatte - es werden sicherlich effizienter als O(N), der eine regular expression matcher und tun ganz gut, wenn das Wörterbuch ist aus einer natürlichen Sprache wie Englisch.
- Das klingt wie ein guter Ansatz, aber was, wenn die Wörter, beginnt mit ???xxx..ich versteh auch nicht, das Verhältnis von Laufzeit-Speicher. Wäre der riesige Speicher, die es erfordert, verlangsamen das Programm?
- Zeit vs. Speicher ist ein klassischer trade-off für den Algorithmus-design. Einige gute Diskussion ist hier erhältlich: stackoverflow.com/questions/1898161/memory-vs-performance
- Wenn die Abfrage wurde ???ing, dann alle 6 Buchstaben-Wörter, die mit 'ich' an pos 3, n an pos 4 und g an pos 5 ausgewählt, und der Schnittpunkt dieser drei Gruppen würde die Ausbeute der möglichen Wörter - sagen Sie es hatte 'Bimsstein, Fragen, baking' von mir, zu Fragen, Backen, canine " für die n-und 'Fragen, Backen, piglog' für die g. Der Schnittpunkt gibt Sie 'Fragen, Backen', et voila.
- haben Sie zudem das? Um ehrlich zu sein, ich glaube, das wird sehr langsam sein.
- Ja, dies ist nicht zur Arbeit zu gehen für mich, ich brauche < 20-lookups.
- Kann ich schlage vor, Sie setzen, dass in der Frage, dann? Für 1 Korrektur der Rechtschreibung ist das nicht optimal. Für mehrere Millionen Euro wird es schneller als Versucht oder anderen Ansatz habe ich hier gesehen. Beachten Sie, dass wir mehr unbekannte Zeichen <i>Geschwindigkeit dieser Algorithmus bis</i> in der Erwägung, dass es verlangsamt die andere nach unten.
- also sagen Sie, dass dies schneller sein als trie im Durchschnitt? interessant.
- Raum reduziert werden könnte, um eine Ausdehnung durch die Verwendung von Zeiger/Indizes um eine einzige Liste von Wörtern.
- Größe könnte auch reduziert werden durch eine Begrenzung der Größe der "Zweige" des "Baumes". Im wesentlichen, wenn Sie das tun können, sagen wir 3 verzweigten lookups, Sie haben reduziert von 1000 auf und dann können Sie eine Liste nachschlagen.
InformationsquelleAutor Phil H
3

Wenn Sie erzeugen alle möglichen Wörter, die dem Muster entsprechen (separate, arbte, arcte ... zryte, zrzte) und dann sehen Sie in einem binären Baum Darstellung des Wörterbuchs, die die durchschnittlichen Leistungsmerkmale O(e^N1 * log(N2)), wo N1 die Anzahl der Fragezeichen und N2 ist die Größe des Wörterbuchs. Scheint gut genug für mich, aber ich bin sicher, es ist möglich, um herauszufinden, einen besseren Algorithmus.

BEARBEITEN: Wenn Sie mehr als, sagen wir, drei Fragezeichen, haben Sie einen Blick auf Phil H ' s Antwort und seinem Brief Indizierung Ansatz.
- Haben Sie dies getan, bevor, wie tun Sie wissen, dass Ihre O((N1^2)*log(N2))?
- Sie sollten nicht erzeugen, Sie alle auf einmal, aber nur, wenn Sie Sie benötigen, beginnend mit dem ersten ? von der linken Seite.
- Können Sie näher erläutern, was Ihre Algorithmus ist?
- Danny: Ein binärer Baum loup ist typischerweise O(log N), und wenn Sie das englische alphabet, und Sie haben zwei Fragezeichen haben Sie 26^2 Möglichkeiten zu suchen, also e^N, du schaust auf jedes Wort daher O(e^N1 * log(N2))
- Debilski: ja, das scheint wie eine gute Idee, um effektiv zu einer Halbierung der Ausführungszeit auf durchschnittlichen (nicht genau Halbierung des Kurses)
- also du meinst... Wenn ich das haben ?r?te..., die Sie testen, wenn separate, arbte, arcte....brate, brbte, brcte...zrzte sind Worte? Testen Worte würde einige Zeit dauern, auch keine?
- Was meinst du mit " nicht erzeugen, Sie alle es einmal?
- Ja, aber die Prüfung selbst ist kein problem, da ein binärer Baum-lookup ist O(log N), so ist es schnell. Das problem ist, wenn man mehr als, sagen wir, drei Fragezeichen, da in diesem Fall die e^N-Teil wird sehr groß werden sehr schnell. Wenn Sie erwarten, dass mehr als drei Fragezeichen, müssen Sie einige andere Ansatz. Lassen Sie mich wissen, wenn das der Fall ist und ich gebe Sie einem anderen Daten-Struktur, die besser geeignet für diesen Fall.
- Ich kann eine beliebige Anzahl von Fragezeichen, und ich versuche nur, um herauszufinden, welcher Ansatz besser ist.
- Wenn Sie können eine beliebige Anzahl von Fragezeichen, betrachten Sie Phil H Ansatz.
- Ist dies immer noch nicht schnell genug. können wir machen < log(n)? Wir können uns wohl tut es, indem mehr Speicher Größe, aber natürlich sind wir nicht möchten, verwenden Sie eine hashmap mit allen möglichen Worten, so, wie?
- Gute Idee, aber anstelle von einem Baum, ich würde es machen, ein sortiertes array mit binärer Suche, optimiert für die bei aufeinanderfolgenden Suchbegriffe in unmittelbarer Nähe zueinander. Das ist, Suche nach dem "Hallo" direkt nach der Sie gesucht 'helko' getan werden kann, schneller als der Allgemeine Fall. Das array nimmt weniger Platz als der Baum und lässt diese aufeinander-die Optimierung der Suche wird einfacher.
InformationsquelleAutor Tamas Czinege
3

Nehme an, Sie haben genügend Speicherplatz, man konnte bauen ein Riesen-hashmap, um die Antwort in konstanter Zeit. Hier ist ein kurzes Beispiel in python:
```
from array import array
all_words = open("english-words").read().split()
big_map = {}

def populate_map(word):
  for i in range(pow(2, len(word))):
    bin = _bin(i, len(word))
    candidate = array('c', word)
    for j in range(len(word)):
      if bin[j] == "1":
        candidate[j] = "?"
    if candidate.tostring() in big_map:
      big_map[candidate.tostring()].add(word)
    else:
      big_map[candidate.tostring()] = set([word])

def _bin(x, width):
    return ''.join(str((x>>i)&1) for i in xrange(width-1,-1,-1))

def run():
  for word in all_words:
    populate_map(word)

run()

>>> big_map["y??r"]
set(['your', 'year'])
>>> big_map["yo?r"]
set(['your'])
>>> big_map["?o?r"]
set(['four', 'poor', 'door', 'your', 'hour'])
```
- wäre das wirklich in konstanter Zeit und schneller als die anderen Ansätze?
- und diese Karte ist WIRKLICH groß, haha
- also ich berechne dies auf etwa 1 Milliarde Schlüssel, die ich nehmen kann die Wörter unmöglich, aber Sie werden noch lassen Sie mich mit einer Menge. Wie viel Platz diese einnehmen?
- Es ist definitiv viel schneller als regex-Suche, versuchen Sie es in ein experiment. Es ist konstant, wenn keine Kollision Auftritt, und das hängt davon ab, Ihre hash-Funktion. Sie können Lesen, auf "hash table" und "perfect hash".
- In Bezug auf Speicherplatz, wäre das sinnvoll?
- abhängig von Ihrer ursprünglichen Wörterbuch Größe, wenn Ihr das OED nicht
- Hängt auch von Ihrer Infrastruktur. Ein paar Möglichkeiten, um dieses eher praktisch: 1. Speichern Sie die Karte auf der Festplatte. 2. Sie können verteilt auf mehreren Maschinen.
- Würden wir in der Lage zu verwenden ein wenig weniger Speicher, aber immer noch schnell laufen wie dieses? Prehaps in O(log(log(n)))?
- Wie groß ist dein Wörterbuch? Ich habe gerade versucht es mit einer Liste von 5000 Wörtern, und heapy meldet die Speicher-Nutzung werden rund 1GB Partition einer Reihe von 6404350 Objekte. Gesamtgröße = 1120854216 bytes. Index Count % Größe % Kumulative % Art (Klasse / dict-Klasse) 0 3188422 50 739713904 66 739713904 66 builtin.set 1 341 0 201543416 18 941257320 84 dict (kein Eigentümer) 2 3203590 50 177720584 16 1118977904 100 str 3 5172 0 419736 0 1119397640 100 Tupel
- Ein Wörterbuch ist ein normales Englisches Wörterbuch, so wie vermutlich 100k - 1m
- Eine mögliche Verbesserung dieses Ansatzes ist das speichern einer BST in der hash-Einträge anstelle einer verlinkten Liste. Diese Weise, wenn Sie nach innen ein Eintrag, der Suche ist in O(log(N)), wo es die Anzahl der Objekte in der hash-Eintrag. Auf diese Weise, könnten Sie mit einer kleineren hash-Tabelle der Größe, mit der mehrere Werte pro Eintrag durchschnittlich. Auch die Einträge zeigen auf die Wörter selbst, anstatt Sie zu kopieren - das wäre sparen auch viel Platz.
InformationsquelleAutor Jiayao Yu
2

Können Sie einen Blick auf, wie Ihre getan in aspell. Sie werden aufgefordert Anregungen des richtige Wort für die falsch geschriebenen Wörter.
- laden Sie die neueste version
- Wow es ist eine riesige Datei mit wie >100 Dateien drin, wo soll ich überhaupt anfangen?
- Beginnen Sie mit dem Handbuch. aspell.net/0.61/man-html/...
InformationsquelleAutor Thomas Bonini
2

Bauen Sie ein hash-set von all den Worten. Zu finden passt, ersetzen Sie die Fragezeichen im Muster, bei dem jede mögliche Kombination von Buchstaben. Wenn es zwei Fragezeichen, eine Abfrage besteht aus 26² = 676 schnelle, Konstante erwartete-Zeit-hash-table-lookups.
```
import itertools

words = set(open("/usr/share/dict/words").read().split())

def query(pattern):
    i = pattern.index('?')
    j = pattern.rindex('?') + 1
    for combo in itertools.product('abcdefghijklmnopqrstuvwxyz', repeat=j-i):
        attempt = pattern[:i] + ''.join(combo) + pattern[j:]
        if attempt in words:
            print attempt
```
Diese verbraucht weniger Speicher als meine andere Antwort, aber wird es exponentiell langsamer, da Sie mehr Fragezeichen.

InformationsquelleAutor Jason Orendorff
2

Wenn 80-90% Genauigkeit ist akzeptabel, könnten Sie verwalten, mit Peter Norvig ist Rechtschreibprüfung. Die Umsetzung ist klein und elegant.
- In diesem Sinn kam (mehrmals, glaube ich), als ich sah, diese Frage
InformationsquelleAutor duffymo
1

Eine regex-basierte Lösung betrachten jeden möglichen Wert in Ihrem Wörterbuch. Wenn die Leistung ist die größte Einschränkung, ein index gebaut werden konnte, um ihn zu beschleunigen erheblich.

Könnten Sie beginnen mit einem index auf jedes Wort der Länge enthält einen index jeder index=Charakter entsprechenden Wort-Sätze. Für die Länge von 5 Wörtern, zum Beispiel 2=r : {write, wrote, drate, arete, arite}, 3=o : {wrote, float, group} usw. Um die möglichen übereinstimmungen für die ursprüngliche Abfrage, sagen '?ro??', das Wort setzt wäre durchschnitten was in {wrote, group} in diesem Fall.

Dies ist unter der Annahme, dass das nur Platzhalter, wird ein einzelnes Zeichen, und dass die Wortlänge bekannt vor. Wenn diese ungültig sind Annahmen, kann ich nur empfehlen, n-Gramm-basierte text-matching, wie besprochen, in dieses Papier.

InformationsquelleAutor James Kolpack
1

Die Daten-Struktur, die Sie wollen, ist aufgerufen, eine trie - siehe wikipedia-Artikel für eine kurze Zusammenfassung.

Ein trie ist ein Baum, der Struktur, wo sich die Pfade durch den Baum bilden die Menge aller Wörter, die Sie verschlüsseln wollen - jeder Knoten kann bis zu 26 Kinder, auf für jeden möglich, den Brief auf die nächste Zeichenposition. Siehe das Diagramm im wikipedia-Artikel, um zu sehen, was ich meine.

InformationsquelleAutor Dave Kirby
1

Haben Sie sich überlegt mit einem Ternäre Suche Baum?
Die lookup-Geschwindigkeit ist vergleichbar mit einem versuchten, aber es ist mehr Platz-effizient.

Habe ich implementiert diese Datenstruktur mehrere Male, und es ist eine ziemlich einfache Aufgabe in den meisten Sprachen.

InformationsquelleAutor fishlips
1

Mein Erster Beitrag hatte einen Fehler, dass Jason fand es nicht gut funktionieren wenn ?? am Anfang war. Ich habe jetzt mir die zyklischen Verschiebungen von Anna..

Meine Lösung:
Die Einführung einer end-of-Wort-Zeichen (@) und speichern Sie alle zyklisch verschoben Worte in sortierten arrays!! Verwenden Sie eine sortierte array für jedes Wort der Länge. Bei der Suche nach "th??e -@", eine Verschiebung der saite zu verschieben ?-markiert bis zum Ende (Beschaffung e@th??) und wählen Sie das array, das Wörter der Länge 5 und eine binäre Suche nach dem ersten Wort, die nach der Zeichenfolge "e@th". Alle übrigen Wörter in dem array übereinstimmen, d.h., wir finden "e@thoo (thoose), e@thes (diese) usw.

Die Lösung ist Zeit-Komplexität von Log( N ), wobei N die Größe des Wörterbuchs, und es wird die Größe der Daten um einen Faktor von 6 oder so ( die Durchschnittliche Wortlänge)
- Nicht alle Wörter, die dazwischen passen. Zum Beispiel, "Ding" nicht mit "th??e", aber es ist zwischen "diese" und "jene".
- Ja, du hast Recht, man bräuchte einen zusätzlichen filter.. ich werde bis Sie Ihre Stimme Ihrem Kommentar.
InformationsquelleAutor ragnarius
1

Hier ist, wie ich es tun würde:
1. Verketten Sie die Wörter des Wörterbuchs in eine lange Zeichenfolge, getrennt durch eine nicht-Wort-Zeichen.
2. Setzen Sie alle Wörter in eine TreeMap, wo der Schlüssel ist das Wort und der Wert ist der offset, der den Anfang des Wortes in den großen String.
3. Finden der Basis der such-string, d.h. die größten und führenden Teilzeichenfolge, die enthalten nicht -'?'.
4. Verwenden TreeMap.higherKey(base) und TreeMap.lowerKey(next(base)) zu finden, wird der Bereich innerhalb der Zeichenfolge zwischen die matches werden gefunden. (Die next Methode muss zur Berechnung der nächsten größeren Wort, um die Basis-Zeichenfolge mit der gleichen Anzahl oder weniger Zeichen; z.B. next("aa") ist "ab", next("az") ist "b".)
5. Erstellen eines regex für den Suchbegriff, und verwenden Sie Matcher.find() zu suchen, die Teilstrings entsprechend zu dem Bereich.
Schritte 1 und 2 sind vorher getan was eine Daten-Struktur mit der O(NlogN) Raum, wo N ist die Anzahl der Wörter.

Dieser Ansatz verkommt zu einer brute-force-regex-Suche von das gesamte Wörterbuch, wenn die '?' erscheint in der ersten position, aber je weiter rechts es liegt, desto weniger übereinstimmende getan werden muss.

BEARBEITEN:

Zur Verbesserung der performance in dem Fall, wo '?' ist das erste Zeichen, erstellen Sie eine sekundäre lookup-Tabelle, die Datensätze der start - /Ende-offsets der läuft von Worten, deren zweites Zeichen 'a', 'b', und so weiter. Dies kann verwendet werden, in dem Fall, wo die erste nicht-'?' ist der zweite Charakter. Sie können uns eine ähnliche Vorgehensweise für Fälle, in denen der erste nicht-'?' ist das Dritte Zeichen, der vierte Charakter und so weiter, aber Sie am Ende mit größeren und größeren Zahl von kleineren und kleinere Auflagen, und schließlich diese "Optimierung" wird unwirksam.

Einen alternativen Ansatz, der erfordert deutlich mehr Platz, aber der ist schneller in den meisten Fällen ist die Vorbereitung der dictionary-Datenstruktur, wie Sie oben für alle Drehungen der Wörter im Wörterbuch. Zum Beispiel, die erste Drehung, die würde darin bestehen, alle Worte, 2 Zeichen oder mehr mit dem ersten Zeichen des Wortes verschoben, um das Ende des Wortes. Die zweite rotation wäre Worte mit 3 Zeichen oder mehr mit den ersten beiden Zeichen verschoben an das Ende, und so weiter. Dann führen Sie die Suche, suchen Sie nach dem längste Folge von nicht -'?' - Zeichen im Suchtext. Wenn der index des ersten Zeichens dieser Teilstring N verwenden Sie die Nth rotation zu finden, das reicht, und die Suche in der N-TEN Drehung word-Liste.

InformationsquelleAutor Stephen C
1

Eine faule Lösung ist, lassen Sie SQLite oder einem anderen DBMS, die Arbeit für Sie erledigen.

Einfach erstellen Sie eine in-memory-Datenbank, laden Sie Ihre Worte und ausführen, wählen Sie den LIKE-operator.

InformationsquelleAutor Benoit Vidis
1

Zusammenfassung: Verwenden Sie zwei compact-binary-gesucht-Indizes, eines der Worte, und eine der Umgekehrt Worte. Der Raum kostet ist 2N Zeiger, die Indizes, fast alle Suchvorgänge sehr schnell gehen; der Schlimmste Fall "??e", ist immer noch anständig. Wenn Sie separate Tabellen für jedes Wort der Länge, das würde selbst dem schlimmsten Fall sehr schnell.

Details: Stephen C. geschrieben, eine gute Idee,: suchen Sie eine geordnete Wörterbuch zu finden, den Bereich, wo das Muster erscheinen kann. Dies hilft nicht, wenn das Muster startet mit einer wildcard. Sie könnten auch den index von word-Länge, aber hier ist eine andere Idee: hinzufügen eines geordneten index, der die Umgekehrt Wörterbuch; dann ein Muster bringt immer einen kleinen Bereich in entweder der vorwärts-index oder umgekehrter-Wort-index (da wir gerade gesagt, es gibt keine Muster, wie ?ABCD?). Die Worte selbst müssen nur einmal gespeichert, wobei die Einträge der beiden Strukturen zeigen auf den selben Worten, und die lookup-Verfahren können Sie entweder vorwärts oder rückwärts; aber die Verwendung von Python die built-in-binary-search-Funktion, die ich gemacht habe, zwei separate Zeichenfolgen-arrays stattdessen verschwenden Platz. (Ich bin mit einem sortierten array statt einem Baum, wie andere vorgeschlagen haben, da es Platz spart und geht mindestens genauso schnell.)

Code:
```
import bisect, re

def forward(string): return string
def reverse(string): return string[::-1]

index_forward = sorted(line.rstrip('\n')
                       for line in open('/usr/share/dict/words'))
index_reverse = sorted(map(reverse, index_forward))

def lookup(pattern):
    "Return a list of the dictionary words that match pattern."
    if reverse(pattern).find('?') <= pattern.find('?'):
        key, index, fixup = pattern, index_forward, forward
    else:
        key, index, fixup = reverse(pattern), index_reverse, reverse
    assert all(c.isalpha() or c == '?' for c in pattern)
    lo = bisect.bisect_left(index, key.replace('?', 'A'))
    hi = bisect.bisect_right(index, key.replace('?', 'z'))
    r = re.compile(pattern.replace('?', '.') + '$')
    return filter(r.match, (fixup(index[i]) for i in range(lo, hi)))
```
Tests: (Der code funktioniert auch für Muster, wie ?AB?D?, allerdings ohne die Geschwindigkeit zu garantieren.)
```
>>> lookup('hello')
['hello']
>>> lookup('??llo')
['callo', 'cello', 'hello', 'uhllo', 'Rollo', 'hollo', 'nullo']
>>> lookup('hel??')
['helio', 'helix', 'hello', 'helly', 'heloe', 'helve']
>>> lookup('he?l')
['heal', 'heel', 'hell', 'heml', 'herl']
>>> lookup('hx?l')
[]
```
Effizienz: Diese Bedürfnisse 2N Zeiger plus den erforderlichen Speicherplatz zum speichern der Wörterbuch-word-text (die getunte version). Das worst-case-Zeit kommt auf das Muster"??e' die Blicke an 44062 Kandidaten in meinem 235k-word /usr/share/dict/words; aber fast alle Abfragen sind wesentlich schneller, wie 'h??lo " ein Blick auf 190, und die Indizierung zunächst auf Wort-Länge reduzieren würde '??e' fast zu nichts, wenn wir müssen. Jede Kandidaten-check geht schneller als die hashtable-lookups andere vorgeschlagen haben.

Ähnelt dem Rotationen-index Lösung, die verhindert, alle false-match-Kandidaten auf Kosten des Müssens über 10N Zeigern anstelle von 2N (angenommen, dass eine Durchschnittliche Wortlänge von etwa 10, wie in meiner /usr/share/dict/words).

Könnten Sie tun, ein einzelnes binary search pro Suche, anstelle von zwei, mit einem benutzerdefinierten such-Funktion sucht nach nieder-gebunden und high-gebunden zusammen (so der gemeinsame Teil der Suche nicht wiederholt).

InformationsquelleAutor
0

Wenn Sie nur ? wildcards, keine * wildcards entsprechen, eine variable Anzahl von Zeichen, die Sie könnten versuchen, diese: Für jedes Zeichen index, bauen Sie ein Wörterbuch von Zeichen zu Wörtern. d.h., wenn die Worte schreiben, schrieb, drate, arete, arite, Ihrer dictionary-Struktur würde wie folgt Aussehen:
```
Character Index 0:
  'a' -> {"arete", "arite"}
  'd' -> {"drate"}
  'w' -> {"write", "wrote"}
Character Index 1:
  'r' -> {"write", "wrote", "drate", "arete", "arite"}
Character Index 2:
  'a' -> {"drate"}
  'e' -> {"arete"}
  'i' -> {"write", "arite"}
  'o' -> {"wrote"}
...
```
Wenn Sie wollen, schauen a?i?? Sie würden das set, das entspricht-Zeichen index 0 => 'a' {"arete", "arite"} und dem Satz, entspricht Zeichen, index 2 = 'i' => {"write", "arite"} und nehmen den Satz Kreuzung.

InformationsquelleAutor Niki
0

Wenn Sie ernsthaft wollen, etwas in der Größenordnung von einer Milliarde Suchanfragen pro Sekunde (obwohl ich nicht davon träumen, warum jemand außerhalb von jemandem machen, der nächste grand-master-scrabble AI oder etwas für eine riesige web-service wollen, dass schnell), ich empfehle die Verwendung threading, um zu laichen [Anzahl der Kerne auf deine Maschine] threads + einem master-thread, dass die Delegierten die Arbeit auf alle threads. Wenden Sie dann die beste Lösung, die Sie bis jetzt gefunden habe und hoffe, dass Sie don ' T run out of memory.

Eine Idee, die ich hatte, ist, dass Sie beschleunigen einigen Fällen durch die Zubereitung in Scheiben geschnitten unten Wörterbücher per Brief, dann, wenn Sie wissen, die ersten Buchstaben der Auswahl, können Sie resort zu suchen in einem viel kleineren Heuhaufen.

Ein anderer Gedanke, den ich hatte, war, dass Sie versuchten, um brute-force etwas -- vielleicht Baue eine DB oder Liste oder so für scrabble?

InformationsquelleAutor RCIX

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Lösung #1: Die Verwendung Von Regex

Lösung #2: Regex mit Vorbereiteten Daten

Lösung #3: Eine Große Hashtable (Aktualisierten Anforderungen)

Lösung #4: Holen Sie Wirklich Ernst

Die schnelle Lösung: HASH

Die Raum-versierte, aber immer noch sehr schnell-Lösung: TRIE variation

Zusammenfassend...