konvertieren Korpus in Daten.frame in R

Ich bin mit dem tm-Paket anwenden Wortstamm, und ich brauche zum konvertieren der resultierenden Daten in einem Daten-frame.
Eine Lösung für diese finden Sie hier R tm Paket vcorpus: Fehler in der Konvertierung von Text zu Daten-frame, aber in meinem Fall habe ich den Inhalt des corpus als:

[[2195]]
i was very impress

statt

[[2195]]
"i was very impress"

und, weil dieser, habe ich, wenn ich

data.frame(text=unlist(sapply(mycorpus, `[`, "content")), stringsAsFactors=FALSE)

wird das Ergebnis

<NA>.

Jede Hilfe ist sehr willkommen!

Folgenden Code als Beispiel:

sentence <- c("a small thread was loose on the sandals, otherwise it looked good")
mycorpus <- Corpus(VectorSource(sentence))
mycorpus <- tm_map(mycorpus, stemDocument, language = "english")

inspect(mycorpus)

[[1]]
a small thread was loo on the sandals, otherwi it look good

data.frame(text=unlist(sapply(mycorpus, `[`, "content")), stringsAsFactors=FALSE)

 text
1 <NA>

Nicht sicher, aber vielleicht versuchen Sie deparse auf der corpus-Liste?
Danke!!! Nein... ich kann nicht verwalten, indem Sie mit deparse...
Könnten Sie fügen Sie einige code mit Daten zu produzieren, die ein minimales Beispiel arbeiten? Von dem, was ich bisher sehe, @RichardScriven 's Idee klingt ganz vernünftig.
sicher!!! von "nicht schaffen" meinte ich, dass ich nicht in der Lage die deparse-Funktion...
Oh, tut mir Leid. einfach mal versuchen auf ein element zuerst. Zum Beispiel deparse(data[[2195]])
Nein, tut mir Leid! 🙂 Ich nicht auch arbeiten.. ich denke, das problem muss ein anderes ein, denn in dem Beispiel, das ich gebe am Ende der Eingabe ist ein string-Vektor... so sollte es funktionieren... irgendwelche Ideen?
Hab ich gelöst! Ich habe angewendet, ein workaround... Wenn ich gsub dem Korpus, das Ergebnis ist Klasse = Charakter. Es funktioniert für mich. Vielen Dank für Ihre Hilfe!
Sie sollte hinzufügen, dass als Antwort für die Zukunft, DAMIT die Suchenden.

InformationsquelleAutor Cristina Cerqueira | 2014-08-25

2

Durch die Anwendung
```
gsub("http\\w+", "", mycorpus)
```
den Ausgang class = Charakter, so dass es funktioniert in meinem Fall.
- Ich würde hilfreich sein, wenn Sie schreiben, wäre der vollständige code für die Konvertierung. Sonst ist der Leser bleibt bei der hit-und trial-Methode.
InformationsquelleAutor Cristina Cerqueira
1

Ich bin nicht in der Lage, das problem zu reproduzieren mit tm_0.6 in R 3.1.0 auf einem Mac:
```
> data.frame(text=unlist(sapply(mycorpus, `[`, "content")), stringsAsFactors=FALSE)
                                                                 text
content a small thread was loos on the sandals, otherwis it look good
```
Wenn ich bekommen hatte, diese unerwünschte Ergebnisse hätte ich sofort versucht:
```
 data.frame(text=unlist(sapply(mycorpus, `[[`, "content")), stringsAsFactors=FALSE)
```
... mit der Begründung, dass seit 'constent' ist eine Liste, die element-Namen, der [['content']] sollte in der Lage gewesen, so dass die serielle Extraktion. Es sah auch zu mir, dass die unlist könnte nicht erforderlich sein, mit diesem Ansatz:
```
> data.frame(text=sapply(mycorpus, `[[`, "content"), stringsAsFactors=FALSE)
                                                           text
1 a small thread was loos on the sandals, otherwis it look good
```
- Danke! Wenn ich Ihren Vorschlag, es gibt mir die Fehlermeldung "Fehler in FUN(X[[1L]], ...) : subscript out of bounds"... Aber ich habe einen workaround für das, was ich brauche.
- Ich denke, Sie haben vielleicht eine veraltete oder kaputte installation der tm.
InformationsquelleAutor 42-

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.