Tag: tm
Das “ tm “ – Paket (die Kurzform für Text-Mining-Infrastruktur in R) bietet einen Rahmen für die text-mining-Anwendungen in R.
2
Antworten
Ich bin mit dem tm-Paket anwenden Wortstamm, und ich brauche zum konvertieren der resultierenden Daten in einem Daten-frame. Eine Lösung für diese finden Sie hier R tm Paket vcorpus: Fehler in der Konvertierung von Text zu Daten-frame,
2
Antworten
Ich bin neu in R-und text-mining. Ich hatte ein word-cloud-out der twitter-feed auf rund Begriff. Das problem, das ich bin vor ist, dass in der wortwolke es zeigt http:... oder htt... Wie gehe ich über dieses Problem
1
Antworten
Ich habe eine termDocumentMatrix erstellt mit der tm Paket in R. Ich versuche zum erstellen einer matrix/dataframe, der die 50 am häufigsten auftretenden Bedingungen. Wenn ich versuche zu konvertieren, um eine matrix bekomme ich diesen Fehler: >
3
Antworten
Mir ist nur aufgefallen, dass nach dem Update auf tm v. 0.5-10 die Funktion Dictionary() wird nicht mehr unterstützt. Ist das ein Fehler??? Oder war es veraltet? Ich nehme an, verwenden eine andere Funktion, um ein Wörterbuch
2
Antworten
Ich versuche zu arbeiten mit der tm-Paket in R, und eine CSV-Datei aus Kunden-feedback, mit jeder Zeile wird eine andere Instanz von feedback. Ich will alle importieren der Inhalt dieses feedback in einen Körper, aber ich will
2
Antworten
Ich versuche zu entfernen, einige Worte aus einem Korpus habe ich gebaut, aber es scheint nicht zu funktionieren. Ich ersten Lauf durch alles durch, und erstellen Sie einen dataframe, dass die Listen, meine Worte sind in der
7
Antworten
Ich habe eine Reihe von PDF-Dokumenten, die ich gelesen haben, in einem Korpus mit Bibliothek tm. Wie kann man das brechen der Körper in den Sätzen? Es getan werden kann, durch das Lesen der Datei mit readLines
7
Antworten
Ich bin komplett neu in R und tm-Paket, so entschuldigen Sie bitte meine dumme Frage 😉 Wie kann ich den text in einer nur-text-Korpus, in R tm Paket? Hab ich geladen, ein Korpus mit über 323 plain-text-Dateien
2
Antworten
Ich bin dabei einige text mining in R mit der tm-Paket. Alles läuft sehr glatt. Allerdings ein problem tritt auf, nach dem Wortstamm (http://en.wikipedia.org/wiki/Stemming). Natürlich gibt es einige Wörter, die den gleichen Wortstamm, aber es ist wichtig,
2
Antworten
Ich bin neu in R und versuche wortwolke mit einem text-Datei durch Leerzeichen voneinander getrennt. Ich habe installiert tm und tmap Pakete. Ich erhalte folgenden Fehler: Error: could not find-Funktion "Corpus" Fehler: konnte nicht gefunden Funktion "tm_map"
1
Antworten
Was ich versuche zu tun ist, laden Sie eine csv-Datei und konvertieren Sie zu einer term-Dokument-matrix. Hier ist ein Teil von meinem code: myCorpus<-read.csv('alert-sample-data-4-mining.csv', head=TRUE) TermDocumentMatrix(myCorpus, control=list(wordLengths=c(1,Inf))) Bekomme aber eine Fehlermeldung, die sagte: Fehler in UseMethod("TermDocumentMatrix", x)
1
Antworten
Ich bin mit dem R tm Paket, und finden, dass fast keines der tm_map Funktionen zu entfernen, die Elemente des Textes werden für mich arbeiten. Durch "arbeiten" meine ich zum Beispiel, werde ich ausführen: d <- tm_map(d,
4
Antworten
Habe ich ein Korpus mit über 5000 text-Dateien. Ich würde gerne einzelne Wort zählt für jede Datei nach dem ausführen von pre-processing (turning zu senken, entfernen von Stoppwörtern, etc). Ich habe nicht hatte kein Glück mit der
2
Antworten
Ich bin mit dem tm und wortwolke Pakete in R 2.15.1. Ich bin versucht, eine word-cloud Hier ist der code: maruti_tweets = userTimeline("Maruti_suzuki", n=1000,cainfo="cacert.pem") hyundai_tweets = userTimeline("HyundaiIndia", n=1000,cainfo="cacert.pem") tata_tweets = userTimeline("TataMotor", n=1000,cainfo="cacert.pem") toyota_tweets = userTimeline("Toyota_India", n=1000,cainfo="cacert.pem") #
1
Antworten
Können Sie uns ein Beispiel der Nutzung der tm (ich weiß nicht, wie zu initialisieren, dass struct), wo das aktuelle Datum geschrieben wird, in diesem format y/m/d? Suche für eine Referenz für die strftime Funktion. InformationsquelleAutor tomss
2
Antworten
Bei Verwendung heruntergeladen R-Pakete, wie z.B. "tm", Beispiel in der Regel lädt eine Beispiel-Daten wie data("crude") Wie kann ich wissen, was genau diese Daten eingestellt ist und in welche Art von format, eine matrix oder ein Vektor?
3
Antworten
Habe ich eine Reihe von Dokumenten: documents = c("She had toast for breakfast", "The coffee this morning was excellent", "For lunch let's all have pancakes", "Later in the day, there will be more talks", "The talks on
2
Antworten
Habe ich erfolgreich installiert, der tm - Paket, das befindet sich in: C:\Users\JustinLiang\Documents\R\win-library\3.0 Nach Art library(), zeigt er mir die R-Pakete zur Verfügung-Liste: Pakete in der Bibliothek 'C:/Users/JustinLiang/Documents/R/win-library/3.0': tm Text-Mining-Paket Pakete in der Bibliothek 'C:/Program Files/R/R-3.0.2/library': jedoch,
7
Antworten
Versuchen, um wortwolke von twitter-Daten, aber bekomme die folgende Fehlermeldung: Error in FUN(X[[72L]], ...) : invalid input '������������❤������������ "@xxx:bla, bla, bla... http://t.co/56Fb78aTSC"' in 'utf8towcs' Dieser Fehler erscheint nach ausführen des "mytwittersearch_corpus<- tm_map(mytwittersearch_corpus, tolower)" code mytwittersearch_list <-sapply(mytwittersearch, function(x)
2
Antworten
Habe ich einen Daten-frame mit strings, die ich hatte, wie zu entfernen stop-Wörter aus. Ich versuche zu vermeiden, mit den tm - Paket, wie es ist ein großer Datensatz und tm scheint zu laufen ein bisschen zu
4
Antworten
Ich habe die anderen ähnlichen Fragen, die hier gepostet (wie diese), aber das problem besteht weiterhin. Habe ich ein dataframe von textuellen Daten, die ich brauche, um Stammzellen. Also ich bin die Umwandlung in einen corpus -,
5
Antworten
Ich haben einen Korpus in R mit der tm Paket. Ich bin die Anwendung der removeWords Funktion, um Stoppwörter zu entfernen tm_map(abs, removeWords, stopwords("english")) Gibt es eine Möglichkeit, eigene benutzerdefinierte Stopp-Wörter zu dieser Liste? InformationsquelleAutor Brian Vanover
3
Antworten
Bin ich dabei eine Menge Analysen mit der TM Paket. Eines meiner größten Probleme sind im Zusammenhang zu STEMMEN und Wortstamm-wie Transformationen. Sagen wir mal ich habe mehrere accounting-Verwandte Begriffe (ich bin mir bewusst, Rechtschreibung). Nach der
4
Antworten
Ich bin erste Schritte mit dem tm-Paket in R, also bitte Geduld mit mir, und entschuldigt sich für die big ol' wall of text. Ich haben einen ziemlich großen Korpus von Sozialistischen/kommunistischen propaganda und möchten, zu extrahieren,
3
Antworten
Habe ich die Arbeit durch zahlreiche online-Beispiele des {tm} - Paket in R, Sie versuchen, zu erstellen eine TermDocumentMatrix. Erstellen und reinigen-Korpus wurde ziemlich einfach, aber ich ständig einen Fehler, wenn ich versuche, um eine matrix zu
2
Antworten
Ich habe einige R-code erzeugt eine tag cloud aus einer term-Dokument-matrix. Nun will ich schaffen, eine ganze Reihe von tag-clouds aus vielen Dokumente, und prüfen Sie visuell zu einem späteren Zeitpunkt. Zu wissen, welche Unterlage(N)/corpus der tag-cloud-Bild
5
Antworten
Ich bin mit dem Paket-tm. Sagen, ich habe einen Daten-frame mit 2 Spalten, 500 Zeilen. Die erste Spalte ist die ID, die zufällig generiert und hat die Zeichen-und die Zahl: "txF87uyK" Die zweite Spalte ist der eigentliche
2
Antworten
Habe ich nahezu tausend pdf journal-Artikeln in einem Ordner. Ich muss den text mir auf alle Artikel - abstracts aus der gesamten Ordner. Jetzt bin ich dabei die folgenden: dest <- "~/A1.pdf" # set path to pdftotxt.exe
3
Antworten
Ich bin mit LDA vom topicmodels Paket, und ich habe es auf über 30.000 Dokumente, hat 30 Themen, und bekam den top-10-Wörter für die Themen, Sie sehen sehr gut aus. Aber ich würde gerne sehen, welche Dokumente
5
Antworten
Ich bin mit der tm - Paket zu bereinigen einige Daten mit dem folgenden code: mycorpus <- Corpus(VectorSource(x)) mycorpus <- tm_map(mycorpus, removePunctuation) Ich dann umwandeln wollen, corpus wieder in einen Daten-frame, um zu exportieren, um eine Textdatei,
3
Antworten
Ich bin mit dem removeSparseTerms-Methode in R, und es erforderlich, einen Schwellwert eingegeben werden. Ich habe auch gelesen, dass je höher der Wert, desto mehr wird die Anzahl der Begriffe, bleibt in der matrix zurückgegeben. Wie funktioniert
5
Antworten
Ich bin mit dem R-Paket tm und ich will ein paar text-mining. Dies ist ein Dokument und wird behandelt, als eine Tasche von Worten. Ich verstehe nicht, die Dokumentation auf, wie das laden einer text-Datei und erstellen
2
Antworten
Wenn ich führen Sie die folgenden codes, um die vorletzte Zeile, bekam ich folgende Warnmeldung: In mclapply(Inhalt(x), FUN, ...) : alle geplanten Kerne angetroffen Fehler in user-code Wenn ich die Letzte Zeile, ich habe "Fehler in UseMethod(\"Worte\")
1
Antworten
Ich versuche zu tun, einige sehr grundlegende text-Analyse mit dem tm-Paket und Holen Sie sich einige tf-idf erzielt, ich bin mit OS X (obwohl ich versucht habe diesen auf Debian Squeeze mit dem gleichen Ergebnis); ich habe
1
Antworten
Ich habe mehrere TermDocumentMatrixs wurde mit der tm Paket in R. Will ich finden, die 10 häufigsten Begriffe, die in jedem Satz von Dokumenten, um letztendlich mit einem output-Tabelle wie: corpus1 corpus2 "beach" "city" "sand" "sidewalk" ...
1
Antworten
Ich bin mit tm() und wordcloud() für einige grundlegende data-mining in R, aber bin knapp in Schwierigkeiten, weil es nicht-englischen Zeichen in mein dataset (obwohl ich habe versucht, heraus zu filtern, andere Sprachen auf der Grundlage der
12
Antworten
Konnte ich die library(tm) in r ohne problem, bis heute, beim laden tm zeigt: library(tm) Laden benötigten Paket: NLP Fehler in loadNamespace(i, c(lib.loc .libPaths()), versionCheck = vI[[i]]) : es gibt kein Paket namens 'slam' Fehler: Paket-oder namespace-load
4
Antworten
Ich habe versucht mit der tm_map. Es gab den folgenden Fehler. Wie kann ich dies umgehen? require(tm) byword<-tm_map(byword, tolower) Error in UseMethod("tm_map", x) : no applicable method for 'tm_map' applied to an object of class "character" InformationsquelleAutor
7
Antworten
Ich bin auf der Suche nach einem code, der tatsächlich funktioniert zu finden, die am häufigsten verwendet werden, zwei und drei Wort-Sätze in R text mining package (vielleicht gibt es ein anderes Paket für Sie, das weiß
4
Antworten
Ich versuche diesen code auszuführen (Ubuntu 12.04, R 3.1.1) # Load requisite packages library(tm) library(ggplot2) library(lsa) # Place Enron email snippets into a single vector. text <- c( "To Mr. Ken Lay, I’m writing to urge you
2
Antworten
Den tm - Paket erweitert c so, dass, wenn gegeben, eine Reihe von PlainTextDocuments es erstellt automatisch eine Corpus. Leider scheint es, dass jeder PlainTextDocument muss separat angegeben werden. wenn ich z.B. hatte: foolist <- list(a, b,
2
Antworten
Ich bin clustering von Dokumenten mit Thema Modellierung. Ich brauche zu kommen mit dem optimalen Thema zahlen. So, ich entschied mich für ten-fold cross validation mit Themen 10, 20, ...60. Ich teilte meinen Körper in zehn Chargen
4
Antworten
Ich habe den folgenden code: # returns string w/o leading or trailing whitespace trim <- function (x) gsub("^\\s+|\\s+$", "", x) news_corpus <- Corpus(VectorSource(news_raw$text)) # a column of strings. corpus_clean <- tm_map(news_corpus, tolower) corpus_clean <- tm_map(corpus_clean, removeNumbers) corpus_clean
7
Antworten
Bin ich mit dem R in der Version 3.0.1 vor, die auf der Plattform: x86_64-apple-darwin10.8.0 (64-bit) Ich versuche, mit tm_map aus dem tm-Bibliothek. Aber wenn ich führen Sie die in diesem code library(tm) data('crude') tm_map(crude, stemDocument) Bekomme