Elegante Art zum zählen der Häufigkeit von Wörtern in einer Datei

Was sind die elegante und effektive Möglichkeiten, um zählen Sie die Häufigkeit jedes "englische" Wort in einer Datei?

Definieren "Wort". Meinst du "englische Wörter" oder "ununterbrochene Sequenzen von Buchstaben" oder "ununterbrochene Sequenzen von Zeichen" oder etwas anderes?
für welchen Zweck - nur zum Spaß?
Wieder, was bedeutet ""Deutsch"" bedeuten? Eigentliche englische Wörter oder Sequenzen übereinstimmenden [A-Za-z]+? Was ist mit Bindestrich geschriebene Wörter oder anderweitig unterbrochen Wörter?
Tun Wehen und besitzergreifend Wörter zählen? Zum Beispiel can't, und The cat's toy..
Tun Sie den Brief Sequenzen haben, um gültig zu sein Englisch Wörter? Zum Beispiel, ein ist ein gültiges Wort, aber t nicht.

InformationsquelleAutor pintu | 2011-02-03

c++file-io

Zunächst definiere ich letter_only std::locale so zu ignorieren Satzzeichen kommen aus dem stream, und Lesen nur gültig, "Englisch" Briefe aus dem input-stream. So, der stream wird die Behandlung der Wörter "ways", "ways." und "ways!" als nur das gleiche Wort "ways", weil der stream wird ignoriert die Interpunktion wie "." und "!".

struct letter_only: std::ctype<char> 
{
    letter_only(): std::ctype<char>(get_table()) {}

    static std::ctype_base::mask const* get_table()
    {
        static std::vector<std::ctype_base::mask> 
            rc(std::ctype<char>::table_size,std::ctype_base::space);

        std::fill(&rc['A'], &rc['z'+1], std::ctype_base::alpha);
        return &rc[0];
    }
};

Lösung 1

int main()
{
     std::map<std::string, int> wordCount;
     ifstream input;
     input.imbue(std::locale(std::locale(), new letter_only())); //enable reading only letters!
     input.open("filename.txt");
     std::string word;
     while(input >> word)
     {
         ++wordCount[word];
     }
     for (std::map<std::string, int>::iterator it = wordCount.begin(); it != wordCount.end(); ++it)
     {
           cout << it->first <<" : "<< it->second << endl;
     }
}

Lösung 2

struct Counter
{
    std::map<std::string, int> wordCount;
    void operator()(const std::string & item) { ++wordCount[item]; }
    operator std::map<std::string, int>() { return wordCount; }
};

int main()
{
     ifstream input;
     input.imbue(std::locale(std::locale(), new letter_only())); //enable reading only letters!
     input.open("filename.txt");
     istream_iterator<string> start(input);
     istream_iterator<string> end;
     std::map<std::string, int> wordCount = std::for_each(start, end, Counter());
     for (std::map<std::string, int>::iterator it = wordCount.begin(); it != wordCount.end(); ++it)
     {
          cout << it->first <<" : "<< it->second << endl;
     }
 }

Aber die Antwort machte es auch klar, dass "nicht-whitespace-Zeichen-Sequenzen, getrennt durch Leerzeichen," ist nicht die definition von "Wort" die OP ist nach.
Ich denke, das ist die richtige Antwort, da er will, die Häufigkeit der Wiederholung von Worten.
+1 für richtige Schätze 😀
Die input-Schleife in die erste Lösung ist falsch. Das eof-flag gesetzt ist nachdem eine Eingabe, die nicht aufgrund zum erreichen von eof.
Warum nicht einfach die idiomatische while (input >> word)? Es ist immer noch falsch geschrieben, da die anderen flags nicht überprüft.

InformationsquelleAutor Nawaz

Hier ist funktionierende Lösung.Diese Arbeit sollte mit echtem text (einschließlich Satzzeichen) :

#include <iterator>
#include <iostream>
#include <fstream>
#include <map>
#include <string>
#include <cctype>

std::string getNextToken(std::istream &in)
{
    char c;
    std::string ans="";
    c=in.get();
    while(!std::isalpha(c) && !in.eof())//cleaning non letter charachters
    {
        c=in.get();
    }
    while(std::isalpha(c))
    {
        ans.push_back(std::tolower(c));
        c=in.get();
    }
    return ans;
}

int main()
{
    std::map<std::string,int> words;
    std::ifstream fin("input.txt");

    std::string s;
    std::string empty ="";
    while((s=getNextToken(fin))!=empty )
            ++words[s];

    for(std::map<std::string,int>::iterator iter = words.begin(); iter!=words.end(); ++iter)
        std::cout<<iter->first<<' '<<iter->second<<std::endl;
}

Edit: Jetzt ist mein code aufrufen tolower für jeden Buchstaben.

Diese zweifellos funktioniert für Englisch (das ist, was die OP gefragt, die Es wissen), aber nicht für andere Sprachen. Ich will nicht auch funktionieren, wenn es eine Zahl in den text eingegeben werden.
Frage fragt, "englische" Wörter.Auch is_alpha nicht true zurück für die Ziffern.

InformationsquelleAutor UmmaGumma

Meine Lösung ist die folgende. Erstens, alle Symbole werden in Leerzeichen umgewandelt. Dann, im Grunde die gleiche Lösung, die hier bereitgestellt werden, bevor Sie verwendet werden, um zu extrahieren Worten:

const std::string Symbols = ",;.:-()\t!¡¿?\"[]{}&<>+-*/=#'";
typedef std::map<std::string, unsigned int> WCCollection;
void countWords(const std::string fileName, WCCollection &wcc)
    {
        std::ifstream input( fileName.c_str() );

        if ( input.is_open() ) {
            std::string line;
            std::string word;

            while( std::getline( input, line ) ) {
                //Substitute punctuation symbols with spaces
                for(std::string::const_iterator it = line.begin(); it != line.end(); ++it) {
                    if ( Symbols.find( *it ) != std::string::npos ) {
                        *it = ' ';
                    }

                }

                //Let std::operator>> separate by spaces
                std::istringstream filter( line );
                while( filter >> word ) {
                    ++( wcc[word] );
                }
            }
        }

    }

nicht verwenden !eof().
Ich habe verbessert der Algorithmus und kleinere Fehler behoben.

InformationsquelleAutor Baltasarq

1

Pseudocode für einen Algorithmus, das ist glaube ich in der Nähe, was Sie wollen:
```
counts = defaultdict(int)
for line in file:
  for word in line.split():
    if any(x.isalpha() for x in word):
      counts[word.toupper()] += 1

freq = sorted(((count, word) for word, count in counts.items()), reversed=True)
for count, word in freq:
  print "%d\t%s" % (count, word)
```
Groß- /Kleinschreibung-Vergleich behandelt, naiv und wahrscheinlich verbindet Wörter, die Sie nicht wollen, zu kombinieren in einer völlig Allgemeinen Sinn. Seien Sie vorsichtig, der nicht-ASCII-Zeichen in Ihrer Umsetzung von den oben genannten. False positives können "1-800-555-SAGEN", "0xDEADBEEF" und "42 km", je nachdem, was Sie wollen. Vergessene Wörter "911 emergency services" (ich würde wahrscheinlich wollen, dass gezählt als drei Worte).

Kurz, natural language parsing ist schwierig: Sie können sich wahrscheinlich machen, durch mit eine Näherung abhängig von Ihrer tatsächlichen Anwendungsfall.

Eine lustige Antwort auf eine C++ Frage: Bereitstellung von Python-code und dann erklärte es zur pseudocode. Bedenkt man, nutzt diese Typen vom Python stdlib ohne Sie zu importieren, und Verstehens, und dass alle C++ - Leute dies Lesen, haben Sie zu erraten, viel, ich bin überrascht, dieses bekam ein upvote. Vielleicht ist das ein Geheimnis, experiment, um zu sehen, wie viele C++ - Programmierer kann sein, still & unwissentlich konvertiert Python-Enthusiasten?

InformationsquelleAutor Fred Nurk
1

Perl ist wohl nicht so elegant, aber sehr effektiv.

Ich habe eine Lösung hier: Verarbeitung von großen text-Dateien

In einer nussschale,

1), Wenn nötig, strip Satzzeichen und Großbuchstaben in Kleinbuchstaben umwandeln:

perl -pe "s/[^a-zA-Z \t\n']//g; tr/A-Z/a-z/" file_raw > file

2) Anzahl des Auftretens jedes Wortes. Drucken Sie die Ergebnisse geordnet nach Häufigkeit und dann alphabetisch:

perl -lane '$h{$_}++ for @F; END{for $w (sort {$h{$b}<=>$h{$a} || $a cmp $b} keys %h) {print "$h{$w}\t$w"}}' file > freq

Lief ich diesen code auf eine 3,3 GB-text-Datei mit 580,000,000 Wörter.

Perl 5.22 abgeschlossen in unter 3 Minuten.

InformationsquelleAutor Chris Koknat
0

Eine weitere einfache Möglichkeit ist, um die Anzahl der Leerzeichen in der Datei, bis mehr als ein Leerzeichen gefunden wurde, wenn man bedenkt, nur einzelne Leerzeichen zwischen den Wörtern...

InformationsquelleAutor Chirag Tayal
0
1. Entscheiden, was genau meinen Sie mit "ein Wort". Sollte die definition Abdeckung Dinge wie, ob "wehrfähigen" ist ein Wort oder zwei, wie man mit Apostrophen ("Don 'T trust' em!"), ob die groß /Kleinschreibung ist signifikant, etc.
2. Erstellen Sie eine Reihe von Testfällen, so dass Sie können sicher sein, Sie bekommen alle Entscheidungen in Schritt 1 korrekt.
3. Erstellen Sie einen tokenizer, der liest das nächste Wort (wie definiert in Schritt 1) aus der Eingabe und gibt es in einer standard-form. Je nachdem, wie Ihre definition, könnte dies einen einfachen Zustandsautomaten, einen regulären Ausdruck oder nur unter Berufung auf <istream>'s Gewinnung von Operatoren (z.B. std::cin >> word;). Testen Sie Ihre tokenizer mit allen Testfällen aus Schritt 2.
4. Wählen Sie eine Datenstruktur, die für die Beibehaltung der Wörter und Anzahl. In modernem C++, würden Sie wahrscheinlich am Ende mit etwas wie std::map<std::string, unsigned> oder std::unordered_map<std::string, int>.
5. Schreiben Sie eine Schleife, die bekommt das nächste Wort aus der Segmentierer und erhöht seine Zählung in dem Histogramm, bis es nicht mehr Wörter in der Eingabe.
InformationsquelleAutor Adrian McCarthy

string mostCommon( string filename ) {

    ifstream input( filename );
    string line;
    string mostFreqUsedWord;
    string token;
    map< string, int > wordFreq;

    if ( input.is_open() ) {

        while ( true ) {
            input >> token;
            if( input ) {
                wordFreq[ token ]++;
                if ( wordFreq[ token] > wordFreq[ mostFreqUsedWord ] )
                    mostFreqUsedWord = token;
            } else
                break;
        }
        input.close();
    } else {
        cout << "Unable to ope file." << endl;
    }
    return mostFreqUsedWord;
}

InformationsquelleAutor user9178028

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.