Tag: corpus

Ein Korpus am häufigsten bezieht sich auf eine Sammlung von strukturierten text. Bitte prüfen, ob Sie Ihre Frage auf https://opendata.stackexchange.com wenn Ihre Frage ist nicht eng mit prorgamming oder sind Sie nur auf der Suche nach einem frei verfügbaren Korpus für jeden Zweck.

konvertieren Korpus in Daten.frame in R

Anzahl der Antworten 2 Antworten
Ich bin mit dem tm-Paket anwenden Wortstamm, und ich brauche zum konvertieren der resultierenden Daten in einem Daten-frame. Eine Lösung für diese finden Sie hier R tm Paket vcorpus: Fehler in der Konvertierung von Text zu Daten-frame,

Was ist der Unterschied zwischen corpus und Lexikon in NLTK (python)

Anzahl der Antworten 1 Antworten
Kann mir jemand sagen der Unterschied zwischen einer Corpora ,corpus und Lexikon in NLTK ? Was ist der movie data set ? was ist Wordnet ? Es ist bevorzugt, wenn Sie buchen können, trennen Sie Fragen, anstatt

R text-mining-Dokumente aus CSV-Datei (eine Zeile pro doc)

Anzahl der Antworten 2 Antworten
Ich versuche zu arbeiten mit der tm-Paket in R, und eine CSV-Datei aus Kunden-feedback, mit jeder Zeile wird eine andere Instanz von feedback. Ich will alle importieren der Inhalt dieses feedback in einen Körper, aber ich will

R tm removeWords Funktion nicht entfernen von Wörtern

Anzahl der Antworten 2 Antworten
Ich versuche zu entfernen, einige Worte aus einem Korpus habe ich gebaut, aber es scheint nicht zu funktionieren. Ich ersten Lauf durch alles durch, und erstellen Sie einen dataframe, dass die Listen, meine Worte sind in der

Wie um zu zeigen, Korpus text in R tm-Paket?

Anzahl der Antworten 7 Antworten
Ich bin komplett neu in R und tm-Paket, so entschuldigen Sie bitte meine dumme Frage 😉 Wie kann ich den text in einer nur-text-Korpus, in R tm Paket? Hab ich geladen, ein Korpus mit über 323 plain-text-Dateien

Die Schaffung eines neuen corpus mit NLTK

Anzahl der Antworten 3 Antworten
Ich damit gerechnet, dass oft die Antwort auf meine Titel, zu gehen und Lesen Sie die Dokumentationen, aber ich lief durch die NLTK-Buch aber es nicht geben die Antwort. Ich bin Art von neuen zu python. Habe

R die tm-Paket für word count

Anzahl der Antworten 4 Antworten
Habe ich ein Korpus mit über 5000 text-Dateien. Ich würde gerne einzelne Wort zählt für jede Datei nach dem ausführen von pre-processing (turning zu senken, entfernen von Stoppwörtern, etc). Ich habe nicht hatte kein Glück mit der

Finden Sie alle Orte / Städte / Orte in einem text

Anzahl der Antworten 3 Antworten
Wenn ich einen text mit zum Beispiel ein Artikel in einer Zeitung in der katalanischen Sprache, wie könnte ich alle Städte von diesem text? Schaue ich das Paket nltk für python und heruntergeladen habe ich das Korpus

Zählen von Wörtern in einem Dokument aus dem Korpus, in R und setzen es in dataframe

Anzahl der Antworten 2 Antworten
Habe ich text-Dokumente, die in jedem Dokument habe ich text mit der tv-Serie Spoilern. Jedes dieser Dokumente ist eine andere Serie. Ich will vergleichen die meisten verwendeten Wörter in jeder Reihe, ich dachte ich könnte zeichnen Sie

Nicht in der Lage zu konvertieren, einen Corpus an Daten-Frame in R

Anzahl der Antworten 4 Antworten
Ich habe die anderen ähnlichen Fragen, die hier gepostet (wie diese), aber das problem besteht weiterhin. Habe ich ein dataframe von textuellen Daten, die ich brauche, um Stammzellen. Also ich bin die Umwandlung in einen corpus -,

Hinzufügen von eigenen Stoppwörtern in R tm

Anzahl der Antworten 5 Antworten
Ich haben einen Korpus in R mit der tm Paket. Ich bin die Anwendung der removeWords Funktion, um Stoppwörter zu entfernen tm_map(abs, removeWords, stopwords("english")) Gibt es eine Möglichkeit, eigene benutzerdefinierte Stopp-Wörter zu dieser Liste? InformationsquelleAutor Brian Vanover

TermDocumentMatrix Fehler in R

Anzahl der Antworten 3 Antworten
Habe ich die Arbeit durch zahlreiche online-Beispiele des {tm} - Paket in R, Sie versuchen, zu erstellen eine TermDocumentMatrix. Erstellen und reinigen-Korpus wurde ziemlich einfach, aber ich ständig einen Fehler, wenn ich versuche, um eine matrix zu

Klassifizierung mit den Film-Kritik Korpus in NLTK/Python

Anzahl der Antworten 1 Antworten
Ich bin auf der Suche, um einige der Einstufung in die Vene des NLTK Kapitel 6. Das Buch scheint einen Schritt überspringen bei der Erstellung der Kategorien, und ich bin mir nicht sicher, was ich falsch mache.

Effizientere Mittel, die Schaffung eines corpus-und DTM mit 4M Zeilen

Anzahl der Antworten 3 Antworten
Meine Datei hat über 4M Zeilen und ich brauche eine effizientere Möglichkeit der Umwandlung meiner Daten zu einem Korpus und Dokument-term-matrix derart, dass ich mich übergeben kann es zu einer Bayes classifier. Betrachten Sie den folgenden code:

R tm Paket vcorpus: Fehler in der Konvertierung von Text zu Daten-frame

Anzahl der Antworten 5 Antworten
Ich bin mit der tm - Paket zu bereinigen einige Daten mit dem folgenden code: mycorpus <- Corpus(VectorSource(x)) mycorpus <- tm_map(mycorpus, removePunctuation) Ich dann umwandeln wollen, corpus wieder in einen Daten-frame, um zu exportieren, um eine Textdatei,

Machen dataframe von top-N-häufige Begriffe für mehrere Korpora, die mit dem tm-Paket in R

Anzahl der Antworten 1 Antworten
Ich habe mehrere TermDocumentMatrixs wurde mit der tm Paket in R. Will ich finden, die 10 häufigsten Begriffe, die in jedem Satz von Dokumenten, um letztendlich mit einem output-Tabelle wie: corpus1 corpus2 "beach" "city" "sand" "sidewalk" ...

Wie erstelle ich eine Wortwolke aus einem Korpus in Python?

Anzahl der Antworten 5 Antworten
Vom Erstellen einer Teilmenge von Wörtern aus einem Korpus in Rdie Beantworter können leicht umwandeln eine term-document matrix in ein word-cloud-einfach. Gibt es eine ähnliche Funktion von python-Bibliotheken, nimmt entweder ein raw word-Textdatei oder NLTK corpus oder

NLTK-Korpora / -Modelle programmatisch installieren, d. H. Ohne den GUI-Downloader?

Anzahl der Antworten 4 Antworten
Mein Projekt verwendet das NLTK. Wie kann ich die Liste der im Projekt corpus & Modell-Anforderungen, so dass Sie automatisch installiert? Ich will nicht klicken Sie sich durch die nltk.download() GUI installieren von Paketen. Auch, so zu

Gibt es irgendeine Treebank umsonst?

Anzahl der Antworten 3 Antworten
Ist jede Stelle, die ich herunterladen kann Baumbank des englischen Phrasen, die kostenlos oder weniger als $100? Ich brauche Trainingsdaten mit Haufen von syntaktisch Analysierte Sätze (>1000) in Englisch in einem beliebigen format. Im Grunde alles was

Erstellen eines neuen Korpus mit NLTK

Anzahl der Antworten 3 Antworten
Ich damit gerechnet, dass oft die Antwort auf meine Titel, zu gehen und Lesen Sie die Dokumentationen, aber ich lief durch die NLTK-Buch aber es nicht geben die Antwort. Ich bin Art von neuen zu python. Habe

DocumentTermMatrix-Fehler bei Corpus-Argument

Anzahl der Antworten 4 Antworten
Ich habe den folgenden code: # returns string w/o leading or trailing whitespace trim <- function (x) gsub("^\\s+|\\s+$", "", x) news_corpus <- Corpus(VectorSource(news_raw$text)) # a column of strings. corpus_clean <- tm_map(news_corpus, tolower) corpus_clean <- tm_map(corpus_clean, removeNumbers) corpus_clean

Wie kann ich das Standard-Mysql-Verbindungstimeout bei der Verbindung über Python ändern?

Anzahl der Antworten 3 Antworten
Ich die Verbindung zu einer mysql-Datenbank mit python con = _mysql.connect('localhost', 'dell-pc', '', 'test') Das Programm, das ich geschrieben habe, nimmt eine Menge Zeit in voller Ausführung, also rund 10 Stunden. Eigentlich bin ich zu Lesen versucht,