Tag: tm

Das “ tm “ – Paket (die Kurzform für Text-Mining-Infrastruktur in R) bietet einen Rahmen für die text-mining-Anwendungen in R.

konvertieren Korpus in Daten.frame in R

Anzahl der Antworten 2 Antworten
Ich bin mit dem tm-Paket anwenden Wortstamm, und ich brauche zum konvertieren der resultierenden Daten in einem Daten-frame. Eine Lösung für diese finden Sie hier R tm Paket vcorpus: Fehler in der Konvertierung von Text zu Daten-frame,

text-mining mit tm-Paket in R ,entfernen von Wörtern ab [http] oder einer anderen spezifischen Wort

Anzahl der Antworten 2 Antworten
Ich bin neu in R-und text-mining. Ich hatte ein word-cloud-out der twitter-feed auf rund Begriff. Das problem, das ich bin vor ist, dass in der wortwolke es zeigt http:... oder htt... Wie gehe ich über dieses Problem

R-tm package-matrix erstellen der Nmost häufige Begriffe

Anzahl der Antworten 1 Antworten
Ich habe eine termDocumentMatrix erstellt mit der tm Paket in R. Ich versuche zum erstellen einer matrix/dataframe, der die 50 am häufigsten auftretenden Bedingungen. Wenn ich versuche zu konvertieren, um eine matrix bekomme ich diesen Fehler: >

Wörterbuch() wird nicht mehr unterstützt im tm-Paket. Wie emend code?

Anzahl der Antworten 3 Antworten
Mir ist nur aufgefallen, dass nach dem Update auf tm v. 0.5-10 die Funktion Dictionary() wird nicht mehr unterstützt. Ist das ein Fehler??? Oder war es veraltet? Ich nehme an, verwenden eine andere Funktion, um ein Wörterbuch

R text-mining-Dokumente aus CSV-Datei (eine Zeile pro doc)

Anzahl der Antworten 2 Antworten
Ich versuche zu arbeiten mit der tm-Paket in R, und eine CSV-Datei aus Kunden-feedback, mit jeder Zeile wird eine andere Instanz von feedback. Ich will alle importieren der Inhalt dieses feedback in einen Körper, aber ich will

R tm removeWords Funktion nicht entfernen von Wörtern

Anzahl der Antworten 2 Antworten
Ich versuche zu entfernen, einige Worte aus einem Korpus habe ich gebaut, aber es scheint nicht zu funktionieren. Ich ersten Lauf durch alles durch, und erstellen Sie einen dataframe, dass die Listen, meine Worte sind in der

R brechen Korpus in Sätzen

Anzahl der Antworten 7 Antworten
Ich habe eine Reihe von PDF-Dokumenten, die ich gelesen haben, in einem Korpus mit Bibliothek tm. Wie kann man das brechen der Körper in den Sätzen? Es getan werden kann, durch das Lesen der Datei mit readLines

Wie um zu zeigen, Korpus text in R tm-Paket?

Anzahl der Antworten 7 Antworten
Ich bin komplett neu in R und tm-Paket, so entschuldigen Sie bitte meine dumme Frage 😉 Wie kann ich den text in einer nur-text-Korpus, in R tm Paket? Hab ich geladen, ein Korpus mit über 323 plain-text-Dateien

Text-mining mit dem tm-Paket - word stemming

Anzahl der Antworten 2 Antworten
Ich bin dabei einige text mining in R mit der tm-Paket. Alles läuft sehr glatt. Allerdings ein problem tritt auf, nach dem Wortstamm (http://en.wikipedia.org/wiki/Stemming). Natürlich gibt es einige Wörter, die den gleichen Wortstamm, aber es ist wichtig,

Fehler mit Korpus in R (wortwolke)

Anzahl der Antworten 2 Antworten
Ich bin neu in R und versuche wortwolke mit einem text-Datei durch Leerzeichen voneinander getrennt. Ich habe installiert tm und tmap Pakete. Ich erhalte folgenden Fehler: Error: could not find-Funktion "Corpus" Fehler: konnte nicht gefunden Funktion "tm_map"

Text mining - wie baut man eine term-Dokument-matrix

Anzahl der Antworten 1 Antworten
Was ich versuche zu tun ist, laden Sie eine csv-Datei und konvertieren Sie zu einer term-Dokument-matrix. Hier ist ein Teil von meinem code: myCorpus<-read.csv('alert-sample-data-4-mining.csv', head=TRUE) TermDocumentMatrix(myCorpus, control=list(wordLengths=c(1,Inf))) Bekomme aber eine Fehlermeldung, die sagte: Fehler in UseMethod("TermDocumentMatrix", x)

R tm removeWords Stoppwörtern ist nicht das entfernen von Stoppwörtern

Anzahl der Antworten 1 Antworten
Ich bin mit dem R tm Paket, und finden, dass fast keines der tm_map Funktionen zu entfernen, die Elemente des Textes werden für mich arbeiten. Durch "arbeiten" meine ich zum Beispiel, werde ich ausführen: d <- tm_map(d,

R die tm-Paket für word count

Anzahl der Antworten 4 Antworten
Habe ich ein Korpus mit über 5000 text-Dateien. Ich würde gerne einzelne Wort zählt für jede Datei nach dem ausführen von pre-processing (turning zu senken, entfernen von Stoppwörtern, etc). Ich habe nicht hatte kein Glück mit der

wortwolke-Paket: erhalte die Meldung "Fehler in strwidth (...) : 'invalid ' cex' Wert"

Anzahl der Antworten 2 Antworten
Ich bin mit dem tm und wortwolke Pakete in R 2.15.1. Ich bin versucht, eine word-cloud Hier ist der code: maruti_tweets = userTimeline("Maruti_suzuki", n=1000,cainfo="cacert.pem") hyundai_tweets = userTimeline("HyundaiIndia", n=1000,cainfo="cacert.pem") tata_tweets = userTimeline("TataMotor", n=1000,cainfo="cacert.pem") toyota_tweets = userTimeline("Toyota_India", n=1000,cainfo="cacert.pem") #

Beispiel von tm verwenden

Anzahl der Antworten 1 Antworten
Können Sie uns ein Beispiel der Nutzung der tm (ich weiß nicht, wie zu initialisieren, dass struct), wo das aktuelle Datum geschrieben wird, in diesem format y/m/d? Suche für eine Referenz für die strftime Funktion. InformationsquelleAutor tomss

über data () - Funktion in R

Anzahl der Antworten 2 Antworten
Bei Verwendung heruntergeladen R-Pakete, wie z.B. "tm", Beispiel in der Regel lädt eine Beispiel-Daten wie data("crude") Wie kann ich wissen, was genau diese Daten eingestellt ist und in welche Art von format, eine matrix oder ein Vektor?

Entfernen von Stoppwörtern aus einem Benutzer-definierten Korpus in R

Anzahl der Antworten 3 Antworten
Habe ich eine Reihe von Dokumenten: documents = c("She had toast for breakfast", "The coffee this morning was excellent", "For lunch let's all have pancakes", "Later in the day, there will be more talks", "The talks on

So laden Sie Pakete in R

Anzahl der Antworten 2 Antworten
Habe ich erfolgreich installiert, der tm - Paket, das befindet sich in: C:\Users\JustinLiang\Documents\R\win-library\3.0 Nach Art library(), zeigt er mir die R-Pakete zur Verfügung-Liste: Pakete in der Bibliothek 'C:/Users/JustinLiang/Documents/R/win-library/3.0': tm Text-Mining-Paket Pakete in der Bibliothek 'C:/Program Files/R/R-3.0.2/library': jedoch,

FUN-Fehler nach dem ausführen von 'tolower' während Twitter wortwolke

Anzahl der Antworten 7 Antworten
Versuchen, um wortwolke von twitter-Daten, aber bekomme die folgende Fehlermeldung: Error in FUN(X[[72L]], ...) : invalid input '������������❤������������ "@xxx:bla, bla, bla... http://t.co/56Fb78aTSC"' in 'utf8towcs' Dieser Fehler erscheint nach ausführen des "mytwittersearch_corpus<- tm_map(mytwittersearch_corpus, tolower)" code mytwittersearch_list <-sapply(mytwittersearch, function(x)

R entfernen von Stoppwörtern aus einem character-Vektor mit %in%

Anzahl der Antworten 2 Antworten
Habe ich einen Daten-frame mit strings, die ich hatte, wie zu entfernen stop-Wörter aus. Ich versuche zu vermeiden, mit den tm - Paket, wie es ist ein großer Datensatz und tm scheint zu laufen ein bisschen zu

Nicht in der Lage zu konvertieren, einen Corpus an Daten-Frame in R

Anzahl der Antworten 4 Antworten
Ich habe die anderen ähnlichen Fragen, die hier gepostet (wie diese), aber das problem besteht weiterhin. Habe ich ein dataframe von textuellen Daten, die ich brauche, um Stammzellen. Also ich bin die Umwandlung in einen corpus -,

Hinzufügen von eigenen Stoppwörtern in R tm

Anzahl der Antworten 5 Antworten
Ich haben einen Korpus in R mit der tm Paket. Ich bin die Anwendung der removeWords Funktion, um Stoppwörter zu entfernen tm_map(abs, removeWords, stopwords("english")) Gibt es eine Möglichkeit, eigene benutzerdefinierte Stopp-Wörter zu dieser Liste? InformationsquelleAutor Brian Vanover

Stemming mit R Text-Analyse

Anzahl der Antworten 3 Antworten
Bin ich dabei eine Menge Analysen mit der TM Paket. Eines meiner größten Probleme sind im Zusammenhang zu STEMMEN und Wortstamm-wie Transformationen. Sagen wir mal ich habe mehrere accounting-Verwandte Begriffe (ich bin mir bewusst, Rechtschreibung). Nach der

Finden ngrams in R und Vergleich der ngrams über Korpora

Anzahl der Antworten 4 Antworten
Ich bin erste Schritte mit dem tm-Paket in R, also bitte Geduld mit mir, und entschuldigt sich für die big ol' wall of text. Ich haben einen ziemlich großen Korpus von Sozialistischen/kommunistischen propaganda und möchten, zu extrahieren,

TermDocumentMatrix Fehler in R

Anzahl der Antworten 3 Antworten
Habe ich die Arbeit durch zahlreiche online-Beispiele des {tm} - Paket in R, Sie versuchen, zu erstellen eine TermDocumentMatrix. Erstellen und reinigen-Korpus wurde ziemlich einfach, aber ich ständig einen Fehler, wenn ich versuche, um eine matrix zu

R: fügen Sie Titel zu wortwolke graphics / png

Anzahl der Antworten 2 Antworten
Ich habe einige R-code erzeugt eine tag cloud aus einer term-Dokument-matrix. Nun will ich schaffen, eine ganze Reihe von tag-clouds aus vielen Dokumente, und prüfen Sie visuell zu einem späteren Zeitpunkt. Zu wissen, welche Unterlage(N)/corpus der tag-cloud-Bild

tm: Lesen Sie in den Daten-frame, text-id, Konstrukt-DTM und den Beitritt zu anderen datasets

Anzahl der Antworten 5 Antworten
Ich bin mit dem Paket-tm. Sagen, ich habe einen Daten-frame mit 2 Spalten, 500 Zeilen. Die erste Spalte ist die ID, die zufällig generiert und hat die Zeichen-und die Zahl: "txF87uyK" Die zweite Spalte ist der eigentliche

Verwenden Sie R, um konvertieren von PDF-Dateien in text-Dateien für text mining

Anzahl der Antworten 2 Antworten
Habe ich nahezu tausend pdf journal-Artikeln in einem Ordner. Ich muss den text mir auf alle Artikel - abstracts aus der gesamten Ordner. Jetzt bin ich dabei die folgenden: dest <- "~/A1.pdf" # set path to pdftotxt.exe

LDA mit topicmodels, wie kann ich sehen, welche Themen andere Dokumente gehören?

Anzahl der Antworten 3 Antworten
Ich bin mit LDA vom topicmodels Paket, und ich habe es auf über 30.000 Dokumente, hat 30 Themen, und bekam den top-10-Wörter für die Themen, Sie sehen sehr gut aus. Aber ich würde gerne sehen, welche Dokumente

R tm Paket vcorpus: Fehler in der Konvertierung von Text zu Daten-frame

Anzahl der Antworten 5 Antworten
Ich bin mit der tm - Paket zu bereinigen einige Daten mit dem folgenden code: mycorpus <- Corpus(VectorSource(x)) mycorpus <- tm_map(mycorpus, removePunctuation) Ich dann umwandeln wollen, corpus wieder in einen Daten-frame, um zu exportieren, um eine Textdatei,

Wie funktioniert die removeSparseTerms in R arbeiten?

Anzahl der Antworten 3 Antworten
Ich bin mit dem removeSparseTerms-Methode in R, und es erforderlich, einen Schwellwert eingegeben werden. Ich habe auch gelesen, dass je höher der Wert, desto mehr wird die Anzahl der Begriffe, bleibt in der matrix zurückgegeben. Wie funktioniert

R text-Datei und text-mining,...wie Sie zum laden von Daten

Anzahl der Antworten 5 Antworten
Ich bin mit dem R-Paket tm und ich will ein paar text-mining. Dies ist ein Dokument und wird behandelt, als eine Tasche von Worten. Ich verstehe nicht, die Dokumentation auf, wie das laden einer text-Datei und erstellen

R tm In mclapply(Inhalt(x), FUN, ...) : alles geplant-cores Fehler in user-code

Anzahl der Antworten 2 Antworten
Wenn ich führen Sie die folgenden codes, um die vorletzte Zeile, bekam ich folgende Warnmeldung: In mclapply(Inhalt(x), FUN, ...) : alle geplanten Kerne angetroffen Fehler in user-code Wenn ich die Letzte Zeile, ich habe "Fehler in UseMethod(\"Worte\")

Versuchen, um tf-idf-Gewichtung arbeiten in R

Anzahl der Antworten 1 Antworten
Ich versuche zu tun, einige sehr grundlegende text-Analyse mit dem tm-Paket und Holen Sie sich einige tf-idf erzielt, ich bin mit OS X (obwohl ich versucht habe diesen auf Debian Squeeze mit dem gleichen Ergebnis); ich habe

Machen dataframe von top-N-häufige Begriffe für mehrere Korpora, die mit dem tm-Paket in R

Anzahl der Antworten 1 Antworten
Ich habe mehrere TermDocumentMatrixs wurde mit der tm Paket in R. Will ich finden, die 10 häufigsten Begriffe, die in jedem Satz von Dokumenten, um letztendlich mit einem output-Tabelle wie: corpus1 corpus2 "beach" "city" "sand" "sidewalk" ...

Entfernen von nicht-englischen text von Corpus in R mit tm()

Anzahl der Antworten 1 Antworten
Ich bin mit tm() und wordcloud() für einige grundlegende data-mining in R, aber bin knapp in Schwierigkeiten, weil es nicht-englischen Zeichen in mein dataset (obwohl ich habe versucht, heraus zu filtern, andere Sprachen auf der Grundlage der

Abhängigkeit 'Slam' ist nicht verfügbar, wenn TM-Paket installiert wird

Anzahl der Antworten 12 Antworten
Konnte ich die library(tm) in r ohne problem, bis heute, beim laden tm zeigt: library(tm) Laden benötigten Paket: NLP Fehler in loadNamespace(i, c(lib.loc .libPaths()), versionCheck = vI[[i]]) : es gibt kein Paket namens 'slam' Fehler: Paket-oder namespace-load

Fehler beim Umwandeln von Text in Kleinbuchstaben mit tm_map (..., tolower)

Anzahl der Antworten 4 Antworten
Ich habe versucht mit der tm_map. Es gab den folgenden Fehler. Wie kann ich dies umgehen? require(tm) byword<-tm_map(byword, tolower) Error in UseMethod("tm_map", x) : no applicable method for 'tm_map' applied to an object of class "character" InformationsquelleAutor

Finden von 2 & amp; 3-Wort-Sätze mit R TM -Paket

Anzahl der Antworten 7 Antworten
Ich bin auf der Suche nach einem code, der tatsächlich funktioniert zu finden, die am häufigsten verwendet werden, zwei und drei Wort-Sätze in R text mining package (vielleicht gibt es ein anderes Paket für Sie, das weiß

R-Project keine anwendbare Methode für "Meta" angewendet auf ein Objekt der Klasse "Charakter"

Anzahl der Antworten 4 Antworten
Ich versuche diesen code auszuführen (Ubuntu 12.04, R 3.1.1) # Load requisite packages library(tm) library(ggplot2) library(lsa) # Place Enron email snippets into a single vector. text <- c( "To Mr. Ken Lay, I’m writing to urge you

wie man eine Liste von Listen in R abflacht

Anzahl der Antworten 2 Antworten
Den tm - Paket erweitert c so, dass, wenn gegeben, eine Reihe von PlainTextDocuments es erstellt automatisch eine Corpus. Leider scheint es, dass jeder PlainTextDocument muss separat angegeben werden. wenn ich z.B. hatte: foolist <- list(a, b,

Topic-Modelle: Kreuzvalidierung mit Log-Wahrscheinlichkeit oder Perplexität

Anzahl der Antworten 2 Antworten
Ich bin clustering von Dokumenten mit Thema Modellierung. Ich brauche zu kommen mit dem optimalen Thema zahlen. So, ich entschied mich für ten-fold cross validation mit Themen 10, 20, ...60. Ich teilte meinen Körper in zehn Chargen

DocumentTermMatrix-Fehler bei Corpus-Argument

Anzahl der Antworten 4 Antworten
Ich habe den folgenden code: # returns string w/o leading or trailing whitespace trim <- function (x) gsub("^\\s+|\\s+$", "", x) news_corpus <- Corpus(VectorSource(news_raw$text)) # a column of strings. corpus_clean <- tm_map(news_corpus, tolower) corpus_clean <- tm_map(corpus_clean, removeNumbers) corpus_clean

tm_map hat den Fehler parallle :: mclapply in R 3.0.1 auf dem Mac

Anzahl der Antworten 7 Antworten
Bin ich mit dem R in der Version 3.0.1 vor, die auf der Plattform: x86_64-apple-darwin10.8.0 (64-bit) Ich versuche, mit tm_map aus dem tm-Bibliothek. Aber wenn ich führen Sie die in diesem code library(tm) data('crude') tm_map(crude, stemDocument) Bekomme