Tag: corpus
Ein Korpus am häufigsten bezieht sich auf eine Sammlung von strukturierten text. Bitte prüfen, ob Sie Ihre Frage auf https://opendata.stackexchange.com wenn Ihre Frage ist nicht eng mit prorgamming oder sind Sie nur auf der Suche nach einem frei verfügbaren Korpus für jeden Zweck.
2
Antworten
Ich bin mit dem tm-Paket anwenden Wortstamm, und ich brauche zum konvertieren der resultierenden Daten in einem Daten-frame. Eine Lösung für diese finden Sie hier R tm Paket vcorpus: Fehler in der Konvertierung von Text zu Daten-frame,
1
Antworten
Kann mir jemand sagen der Unterschied zwischen einer Corpora ,corpus und Lexikon in NLTK ? Was ist der movie data set ? was ist Wordnet ? Es ist bevorzugt, wenn Sie buchen können, trennen Sie Fragen, anstatt
2
Antworten
Ich versuche zu arbeiten mit der tm-Paket in R, und eine CSV-Datei aus Kunden-feedback, mit jeder Zeile wird eine andere Instanz von feedback. Ich will alle importieren der Inhalt dieses feedback in einen Körper, aber ich will
2
Antworten
Ich versuche zu entfernen, einige Worte aus einem Korpus habe ich gebaut, aber es scheint nicht zu funktionieren. Ich ersten Lauf durch alles durch, und erstellen Sie einen dataframe, dass die Listen, meine Worte sind in der
7
Antworten
Ich bin komplett neu in R und tm-Paket, so entschuldigen Sie bitte meine dumme Frage 😉 Wie kann ich den text in einer nur-text-Korpus, in R tm Paket? Hab ich geladen, ein Korpus mit über 323 plain-text-Dateien
3
Antworten
Ich damit gerechnet, dass oft die Antwort auf meine Titel, zu gehen und Lesen Sie die Dokumentationen, aber ich lief durch die NLTK-Buch aber es nicht geben die Antwort. Ich bin Art von neuen zu python. Habe
4
Antworten
Habe ich ein Korpus mit über 5000 text-Dateien. Ich würde gerne einzelne Wort zählt für jede Datei nach dem ausführen von pre-processing (turning zu senken, entfernen von Stoppwörtern, etc). Ich habe nicht hatte kein Glück mit der
3
Antworten
Wenn ich einen text mit zum Beispiel ein Artikel in einer Zeitung in der katalanischen Sprache, wie könnte ich alle Städte von diesem text? Schaue ich das Paket nltk für python und heruntergeladen habe ich das Korpus
2
Antworten
Habe ich text-Dokumente, die in jedem Dokument habe ich text mit der tv-Serie Spoilern. Jedes dieser Dokumente ist eine andere Serie. Ich will vergleichen die meisten verwendeten Wörter in jeder Reihe, ich dachte ich könnte zeichnen Sie
4
Antworten
Ich habe die anderen ähnlichen Fragen, die hier gepostet (wie diese), aber das problem besteht weiterhin. Habe ich ein dataframe von textuellen Daten, die ich brauche, um Stammzellen. Also ich bin die Umwandlung in einen corpus -,
5
Antworten
Ich haben einen Korpus in R mit der tm Paket. Ich bin die Anwendung der removeWords Funktion, um Stoppwörter zu entfernen tm_map(abs, removeWords, stopwords("english")) Gibt es eine Möglichkeit, eigene benutzerdefinierte Stopp-Wörter zu dieser Liste? InformationsquelleAutor Brian Vanover
3
Antworten
Habe ich die Arbeit durch zahlreiche online-Beispiele des {tm} - Paket in R, Sie versuchen, zu erstellen eine TermDocumentMatrix. Erstellen und reinigen-Korpus wurde ziemlich einfach, aber ich ständig einen Fehler, wenn ich versuche, um eine matrix zu
1
Antworten
Ich bin auf der Suche, um einige der Einstufung in die Vene des NLTK Kapitel 6. Das Buch scheint einen Schritt überspringen bei der Erstellung der Kategorien, und ich bin mir nicht sicher, was ich falsch mache.
3
Antworten
Meine Datei hat über 4M Zeilen und ich brauche eine effizientere Möglichkeit der Umwandlung meiner Daten zu einem Korpus und Dokument-term-matrix derart, dass ich mich übergeben kann es zu einer Bayes classifier. Betrachten Sie den folgenden code:
5
Antworten
Ich bin mit der tm - Paket zu bereinigen einige Daten mit dem folgenden code: mycorpus <- Corpus(VectorSource(x)) mycorpus <- tm_map(mycorpus, removePunctuation) Ich dann umwandeln wollen, corpus wieder in einen Daten-frame, um zu exportieren, um eine Textdatei,
1
Antworten
Ich habe mehrere TermDocumentMatrixs wurde mit der tm Paket in R. Will ich finden, die 10 häufigsten Begriffe, die in jedem Satz von Dokumenten, um letztendlich mit einem output-Tabelle wie: corpus1 corpus2 "beach" "city" "sand" "sidewalk" ...
5
Antworten
Vom Erstellen einer Teilmenge von Wörtern aus einem Korpus in Rdie Beantworter können leicht umwandeln eine term-document matrix in ein word-cloud-einfach. Gibt es eine ähnliche Funktion von python-Bibliotheken, nimmt entweder ein raw word-Textdatei oder NLTK corpus oder
4
Antworten
Mein Projekt verwendet das NLTK. Wie kann ich die Liste der im Projekt corpus & Modell-Anforderungen, so dass Sie automatisch installiert? Ich will nicht klicken Sie sich durch die nltk.download() GUI installieren von Paketen. Auch, so zu
3
Antworten
Ist jede Stelle, die ich herunterladen kann Baumbank des englischen Phrasen, die kostenlos oder weniger als $100? Ich brauche Trainingsdaten mit Haufen von syntaktisch Analysierte Sätze (>1000) in Englisch in einem beliebigen format. Im Grunde alles was
3
Antworten
Ich damit gerechnet, dass oft die Antwort auf meine Titel, zu gehen und Lesen Sie die Dokumentationen, aber ich lief durch die NLTK-Buch aber es nicht geben die Antwort. Ich bin Art von neuen zu python. Habe
4
Antworten
Ich habe den folgenden code: # returns string w/o leading or trailing whitespace trim <- function (x) gsub("^\\s+|\\s+$", "", x) news_corpus <- Corpus(VectorSource(news_raw$text)) # a column of strings. corpus_clean <- tm_map(news_corpus, tolower) corpus_clean <- tm_map(corpus_clean, removeNumbers) corpus_clean
3
Antworten
Ich die Verbindung zu einer mysql-Datenbank mit python con = _mysql.connect('localhost', 'dell-pc', '', 'test') Das Programm, das ich geschrieben habe, nimmt eine Menge Zeit in voller Ausführung, also rund 10 Stunden. Eigentlich bin ich zu Lesen versucht,