Schneller Datenstruktur für das suchen nach einem string

Habe ich diesen code, der bestimmt, ob ein Wort (ignoring case) enthalten ist in einer wordList text-Datei. Aber die wordList text-Datei 65000++ Linien, und Suche einfach ein Wort über meine Implementierung unten fast eine minute dauert. Könnten Sie sich vorstellen, dass es eine bessere Umsetzung?

Dank!

import java.io.*;
import java.util.*;

public class WordSearch 
{
    LinkedList<String> lxx;
    FileReader fxx;
    BufferedReader bxx;

    public WordSearch(String wordlist) 
        throws IOException
    {
        fxx = new FileReader(wordlist);
        bxx = new BufferedReader(fxx);
        lxx = new LinkedList<String>();
        String word;

        while ( (word = bxx.readLine()) != null) 
            {
            lxx.add(word);
        }

        bxx.close();
    }

    public boolean inTheList (String theWord)
    {
        for(int i =0 ; i < lxx.size(); i++)
            {
            if (theWord.compareToIgnoreCase(lxx.get(i)) == 0)
                    {
                return true;
            }
        }

        return false;
    }
}

Leerzeichen Hafen besser in allen Editoren (einschließlich der SO ist wie Magie, textarea) für Einzüge als tabs.
wie viele unterschiedliche Wörter gibt es?
Wo können wir eine lange Liste von Wörtern? Ich Schaffe es, zu simulieren, 15k und ich bin in einer ms
gutenberg.org/wiki/Main_Page erhalten Sie einige große Texte, die Sie nutzen können.
und ich war kämpfen, um etwas aus einer html-Datei 😛

InformationsquelleAutor Mariska | 2011-03-05

data-structures java

14

Verwenden HashSet in dem du eine Kleinbuchstaben-version von jedem Wort. Überprüfen, ob ein HashSet enthält eine angegebene Zeichenfolge ist, im Durchschnitt eine Konstante Zeit (gelesen: extrem schnell) - operation.
- Wie bekomme ich den Index von such-Ergebnis?!
- Was meinst du mit "index" und "Ergebnis der Suche"? Diese Frage ist über die Suche nach einer exakten (aber groß-und Kleinschreibung) entsprechen, von einem einzigen Wort; dies unterscheidet sich von einer vollständigen Suchmaschine, die zurückkehren könnte eine Reihe von Dokumenten, in denen der Suchbegriff auch in unterschiedlichem Ausmaß.
InformationsquelleAutor Aasmund Eldhuset
2

Da bist du auf der Suche, möchten Sie vielleicht zu prüfen, Sortierung der Liste, bevor die Suche; dann kann man die Binärsuche ist viel schneller als lineare Suche. Das kann helfen, wenn Sie führen Sie mehrere Suchvorgänge auf der gleichen Liste, andernfalls wird die Strafe, die Sie zahlen, um die Liste zu Sortieren, ist nicht Wert, es für die Suche nur einmal.

Auch tun linearen Suche, die auf eine verknüpfte Liste mit "lxx.Holen(i)" ist nach ärger. LinkedList.get() ist O(n). Sie können entweder einen Iterator (einfache Möglichkeit: for (String s : lxx)), oder wechseln Sie zu einer Liste geben, die O(1) Zugriffszeit, wie ArrayList.

InformationsquelleAutor vanza
0

Jeder Suche durch l in O(n) - operation, also das wird ziemlich teuer, wenn Sie haben Tausende von Worten. Verwenden Sie stattdessen eine HashSet:
```
Set<String> lxx;

...

lxx = new HashSet<String>();
while ( (word = bxx.readLine()) != null) {
        lxx.add(word.toLowerCase());
}
bxx.close();
```
und verwenden Sie dann lxx.contains(theWord.toLowerCase()) um zu überprüfen, ob das Wort in der Datei.
Jede Suche in der HashSet ist eine O(1) operation, so dass die Zeit es dauert, ist (fast) unabhängig von der Größe der Datei.

InformationsquelleAutor Viktor Dahl
0

First off, nicht deklarieren Sie eine variable, um eine LinkedList, erklären, dass es eine Liste (code-Teile nicht mit der Liste gelöscht:
```
public class WordSearch 
{
    List<String> lxx;

    public WordSearch(String wordlist) 
        throws IOException
    {
        lxx = new LinkedList<String>();
    }
}
```
Nächsten nicht nennen, kommen auf die Liste, verwenden Sie eine LinkedList zu bekommen wird SEHR langsam sein. Verwenden Sie stattdessen einen iterator... besser noch die Verwendung der neuen stype for-Schleife, die mit einem iterator für Sie:
```
    public boolean inTheList (String theWord)
    {
        for(String word : lxx)
        {
            if (theWord.compareToIgnoreCase(word) == 0)
            {
                return true;
            }
        }

        return false;
    }
```
Nächsten änderung die neue LinkedList in eine neue ArrayList:

lxx = new ArrayList();

Dieser code sollte schneller sein, aber Sie können noch besser zu machen.

Da Sie nicht zu kümmern doppelte Wörter verwenden, anstatt eine Liste und verwenden Sie ein HashSet statt einer ArrayList.

Tun, dass die Geschwindigkeit des Programms deutlich.

Deinen original-code, mit einer LinkedList mit bekommen hat, zu beginnen am Anfang der Liste jedes mal, wenn der Suche nach dem nächsten Wort in der Liste. Mit dem Iterator (via der neue Stil for-each-Schleife) hält, dass aus geschieht.

Verwendung einer LinkedList bedeutet, dass jedes mal, wenn Sie gehen müssen, um das nächste Wort in der Liste wird ein lookup beteiligten, die ArrayList nicht haben, dass overhead.

Verwendung eines HashSet windet sich (wahrscheinlich) mit Hilfe einer Baum-Struktur, die hat eine sehr schnelle lookups.

InformationsquelleAutor TofuBeer

Hier ist meine Umsetzung suchen unter 50 ms.

Zuerst müssen Sie zum laden der Datei und halten Sie Sie sortiert in Erinnerung.

Können Sie laden Sie es wie Sie wollen, aber wenn Sie es geladen hat, in große Stücke leichter.

Mein input war der byte in python-Buch ( Download der HTML-single-file-version ) und die Java language specification ( Download der html-und eine einzelne Datei erstellen, aus der alle html-Seiten )

Erstellen Sie die Liste in eine große Datei, die ich verwendet dieses Programm ( siehe code auskommentiert ).

Sobald ich eine große Datei mit über 300k Worten, ich lief das Programm mit dieser Ausgabe:

C:\Users\oreyes\langs\java\search>dir singlelineInput.txt
 El volumen de la unidad C no tiene etiqueta.
 El número de serie del volumen es: 22A8-203B

 Directorio de C:\Users\oreyes\langs\java\search

04/03/2011  09:37 p.m.         3,898,345 singlelineInput.txt
               1 archivos      3,898,345 bytes

C:\Users\oreyes\langs\java\search>javac WordSearch.java

C:\Users\oreyes\langs\java\search>java WordSearch singlelineInput.txt "great"
Loaded 377381 words in 2844 ms
true
in 31 ms

C:\Users\oreyes\langs\java\search>java WordSearch singlelineInput.txt "great"
Loaded 377381 words in 2812 ms
true
in 31 ms

C:\Users\oreyes\langs\java\search>java WordSearch singlelineInput.txt "awesome"
Loaded 377381 words in 2813 ms
false
in 47 ms

C:\Users\oreyes\langs\java\search>gvim singlelineInput.txt

C:\Users\oreyes\langs\java\search>java WordSearch singlelineInput.txt "during"
Loaded 377381 words in 2813 ms
true
in 15 ms

C:\Users\oreyes\langs\java\search>java WordSearch singlelineInput.txt "specification"
Loaded 377381 words in 2875 ms
true
in 47 ms

C:\Users\oreyes\langs\java\search>java WordSearch singlelineInput.txt "<href"
Loaded 377381 words in 2844 ms
false
in 47 ms

C:\Users\oreyes\langs\java\search>java WordSearch singlelineInput.txt "<br>"
Loaded 377381 words in 2829 ms
true
in 15 ms

Immer unter 50 ms.

Hier der code:

   import java.io.*;
   import java.util.*;

   class WordSearch {
       String inputFile;
       List<String> words;
       public WordSearch(String file ) { 
           inputFile = file;
       }
       public void initialize() throws IOException { 
           long start = System.currentTimeMillis();
           File file = new File( inputFile );
           ByteArrayOutputStream baos = new ByteArrayOutputStream(( int ) file.length());
           FileInputStream in = new FileInputStream( file );
           copyLarge( in, baos, (int)file.length() );

           Scanner scanner = new Scanner( new ByteArrayInputStream(  baos.toByteArray() ));
           words = new LinkedList<String>();
           while( scanner.hasNextLine() ) { 
              String l = scanner.nextLine().trim();
              //for( String s : l.split("\\s+")){
                //System.out.println( s );
                words.add( l.toLowerCase() );
              //}
           }

           Collections.sort( words );
           for( String s : words ) { 
               //System.out.println( s );
           }
           System.out.println("Loaded " + words.size() + " words in "+  ( System.currentTimeMillis() - start ) + " ms"  );
       }

       public boolean contains( String aWord ) { 
           return words.contains( aWord.toLowerCase() );
       }
        //taken from:  http://stackoverflow.com/questions/326390/how-to-create-a-java-string-from-the-contents-of-a-file/326413#326413 
        public static long copyLarge(InputStream input, OutputStream output, int size )
               throws IOException {
           byte[] buffer = new byte[size];//something biggie 
           long count = 0;
           int n = 0;
           while (-1 != (n = input.read(buffer))) {
               output.write(buffer, 0, n);
               count += n;
           }
           return count;
       }
       public static void main( String ... args ) throws IOException  { 
           WordSearch ws = new WordSearch( args[0] );
           ws.initialize();
           long start = System.currentTimeMillis();
           System.out.println( ws.contains( args[1] ) );
           System.out.println("in "+  ( System.currentTimeMillis() - start ) +" ms ");

       }
    }

Der schwierige Teil war, um ein Beispiel für die Eingabe 😛

InformationsquelleAutor OscarRyz

Ratet mal, was mit einer HashMap zurück in keine Zeit:

Hier ist die geänderte version und es zu beenden, immer in 0 ms.

   import java.io.*;
   import java.util.*;

   class WordSearch {
       String inputFile;
       //List<String> words;
       Set<String> words;
       public WordSearch(String file ) { 
           inputFile = file;
       }
       public void initialize() throws IOException { 
           long start = System.currentTimeMillis();
           File file = new File( inputFile );
           ByteArrayOutputStream baos = new ByteArrayOutputStream(( int ) file.length());
           FileInputStream in = new FileInputStream( file );
           copyLarge( in, baos, (int)file.length() );

           Scanner scanner = new Scanner( new ByteArrayInputStream(  baos.toByteArray() ));
           words = new HashSet<String>();
           while( scanner.hasNextLine() ) { 
              String l = scanner.nextLine().trim();
              //for( String s : l.split("\\s+")){
                //System.out.println( s );
                words.add( l.toLowerCase() );
              //}
           }

           //Collections.sort( words );
           for( String s : words ) { 
               System.out.println( s );
           }
           System.out.println("Loaded " + words.size() + " words in "+  ( System.currentTimeMillis() - start ) + " ms"  );
       }

       public boolean contains( String aWord ) { 
           return words.contains( aWord.toLowerCase() );
       }

        public static long copyLarge(InputStream input, OutputStream output, int size )
               throws IOException {
           byte[] buffer = new byte[size];//something biggie 
           long count = 0;
           int n = 0;
           while (-1 != (n = input.read(buffer))) {
               output.write(buffer, 0, n);
               count += n;
           }
           return count;
       }
       public static void main( String ... args ) throws IOException  { 
           WordSearch ws = new WordSearch( args[0] );
           ws.initialize();
           long start = System.currentTimeMillis();
           System.out.println( ws.contains( args[1] ) );
           System.out.println("in "+  ( System.currentTimeMillis() - start ) +" ms ");

       }
    }

Nun weiß ich sicher 🙂

InformationsquelleAutor OscarRyz

0

zwei Vorschläge:
Beide Datenstrukturen geben Sie eine bessere Leistung.
1. Directed acyclic word graph (DAWG)
2. Dictionary-Datenstruktur. n-tree
InformationsquelleAutor Tal Fisharov

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.