Wie funktioniert die removeSparseTerms in R arbeiten?

Ich bin mit dem removeSparseTerms-Methode in R, und es erforderlich, einen Schwellwert eingegeben werden. Ich habe auch gelesen, dass je höher der Wert, desto mehr wird die Anzahl der Begriffe, bleibt in der matrix zurückgegeben.

Wie funktioniert diese Methode funktioniert und was ist die Logik dahinter? Ich verstehe das Konzept der Kargheit aber hat diese Schwelle anzugeben, wie viele Dokumente sollte ein Begriff vorhanden sein, oder einige andere ratio, etc?

InformationsquelleAutor der Frage London guy | 2015-02-27

lda r tm

Im Sinne der sparse argument removeSparseTerms()sparsity bezieht sich auf die Schwelle des relative Dokument-Frequenz für einen Begriff, über die der Begriff entfernt wird. Relative Dokument-Frequenz bedeutet hier einen Anteil. Wie die Hilfe-Seite für den Befehl Staaten (obwohl nicht sehr klar), sparsity ist kleinerewie es Ansätze 1.0. (Beachten Sie, dass sparsity nicht nehmen nur die Werte 0 oder 1.0, nur Werte dazwischen.)

Zum Beispiel, wenn Sie sparse = 0.99 als argument zu removeSparseTerms()dann wird das entfernen nur unter Bedingungen, die mehr spärlich als 0,99.
Die genaue interpretation für sparse = 0.99 ist, dass für den Begriff " $j$, behalten Sie alle Begriffe, für die
$df_j > N * (1 - 0.99)$, wobei $N$ ist die Anzahl der Dokumente-in diesem Fall wohl alle Begriffe beibehalten werden (siehe Beispiel unten).

In der Nähe das andere extrem, wenn sparse = .01dann nur die Begriffe angezeigt, die in (fast) jedes Dokument beibehalten werden. (Natürlich hängt dies von der Anzahl der Begriffe und die Anzahl der Dokumente, die in natürlicher Sprache, häufige Wörter wie "die" sind wahrscheinlich in jedem Dokument und daher nie "sparse".)

Ein Beispiel für die sparsity Schwelle von 0.99, wo ein Begriff, der tritt bei den meisten (erstes Beispiel) weniger als 0,01 Dokumente, und (zweites Beispiel) nur über 0.01 Dokumente:

> # second term occurs in just 1 of 101 documents
> myTdm1 <- as.DocumentTermMatrix(slam::as.simple_triplet_matrix(matrix(c(rep(1, 101), rep(1,1), rep(0, 100)), ncol=2)), 
+                                weighting = weightTf)
> removeSparseTerms(myTdm1, .99)
<<DocumentTermMatrix (documents: 101, terms: 1)>>
Non-/sparse entries: 101/0
Sparsity           : 0%
Maximal term length: 2
Weighting          : term frequency (tf)
> 
> # second term occurs in 2 of 101 documents
> myTdm2 <- as.DocumentTermMatrix(slam::as.simple_triplet_matrix(matrix(c(rep(1, 101), rep(1,2), rep(0, 99)), ncol=2)), 
+                                weighting = weightTf)
> removeSparseTerms(myTdm2, .99)
<<DocumentTermMatrix (documents: 101, terms: 2)>>
Non-/sparse entries: 103/99
Sparsity           : 49%
Maximal term length: 2
Weighting          : term frequency (tf)

Hier sind ein paar weitere Beispiele mit tatsächlichen text und Bedingungen:

> myText <- c("the quick brown furry fox jumped over a second furry brown fox",
              "the sparse brown furry matrix",
              "the quick matrix")

> require(tm)
> myVCorpus <- VCorpus(VectorSource(myText))
> myTdm <- DocumentTermMatrix(myVCorpus)
> as.matrix(myTdm)
    Terms
Docs brown fox furry jumped matrix over quick second sparse the
   1     2   2     2      1      0    1     1      1      0   1
   2     1   0     1      0      1    0     0      0      1   1
   3     0   0     0      0      1    0     1      0      0   1
> as.matrix(removeSparseTerms(myTdm, .01))
    Terms
Docs the
   1   1
   2   1
   3   1
> as.matrix(removeSparseTerms(myTdm, .99))
    Terms
Docs brown fox furry jumped matrix over quick second sparse the
   1     2   2     2      1      0    1     1      1      0   1
   2     1   0     1      0      1    0     0      0      1   1
   3     0   0     0      0      1    0     1      0      0   1
> as.matrix(removeSparseTerms(myTdm, .5))
    Terms
Docs brown furry matrix quick the
   1     2     2      0     1   1
   2     1     1      1     0   1
   3     0     0      1     1   1

Im letzten Beispiel mit sparse = 0.34 nur Begriffe auftreten in zwei Drittel der Dokumente wurden beibehalten.

Einen alternativen Ansatz für das trimmen Begriffe aus der Dokument-term-Matrix basiert auf einem Dokument-Frequenz ist die text-Analyse-Paket quanteda. Die gleiche Funktionalität bezieht sich hier nicht auf sparsitysondern direkt auf die Dokument Frequenz der Bedingungen (wie in tf-idf).

> require(quanteda)
> myDfm <- dfm(myText, verbose = FALSE)
> docfreq(myDfm)
     a  brown    fox  furry jumped matrix   over  quick second sparse    the 
     1      2      1      2      1      2      1      2      1      1      3 
> trim(myDfm, minDoc = 2)
Features occurring in fewer than 2 documents: 6 
Document-feature matrix of: 3 documents, 5 features.
3 x 5 sparse Matrix of class "dfmSparse"
       features
docs    brown furry the matrix quick
  text1     2     2   1      0     1
  text2     1     1   1      1     0
  text3     0     0   1      1     1

Diese Verwendung scheint viel einfacher für mich.

InformationsquelleAutor der Antwort Ken Benoit

3

In der Funktion removeSparseTerms() ist das argument, sparse = x bedeutet:

"entfernen Sie alle Ausdrücke, deren sparsity größer ist als der Schwellenwert (x)".

e.g: removeSparseTerms(my_dtm, sparse = 0.90) bedeutet entfernen Sie alle Bedingungen im Korpus, deren sparsity ist größer als 90%.

Zum Beispiel, ein Begriff, der angezeigt wird, sagen Sie nur 4 mal in einem Korpus von sagen Größe 1000, wird die Häufigkeit des Auftretens von 0.004 =4/1000.

Dieser Begriff sparsity wird (1000-4)/1000 = 1- 0.004 = 0.996 = 99.6%.

Also wenn sparsity Schwellenwert eingestellt ist, um sparse = 0.90, die diesen Begriff enthalten, werden entfernt sein sparsity (0.996) ist größer als die Obere Grenze sparsity (0.90).

Allerdings, wenn sparsity Schwellenwert eingestellt ist, um sparse = 0.999, die diesen Begriff nicht entfernt werden, da seine sparsity (0.996) niedriger ist als die Obere Grenze sparsity (0.999).

InformationsquelleAutor der Antwort PatrickBeuseize
1

Einfach sein, wie die Häufigkeit eines Elements, Wenn Sie den Wert als 0 festlegen, wird es wieder all die Elemente, die in allen der text, wo auch immer, wenn Sie es als 1, wird es wieder alle das Element im text. Wenn ich wählen Sie 0.5, wird es lassen Sie mich, um nur die Texte, die erscheinen in 50% der Zeiten in das gesamte element. Dies erfolgt durch die Berechnung nach all diesen pro-Verarbeitung als

1- (Summe(no_off_times_of_the_individual_text_element)/Summe(no_off_total_text_elements)) <= Set_Value

InformationsquelleAutor der Antwort Sherl

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.