Wie die Teilmenge der Daten mit Voraus, string matching

Habe ich die folgenden Daten-frame aus, den würde ich gerne extrahieren von Zeilen basierend auf übereinstimmenden Zeichenfolgen.

> GEMA_EO5
gene_symbol  fold_EO  p_value                           RefSeq_ID      BH_p_value
       KNG1 3.433049 8.56e-28              NM_000893,NM_001102416    1.234245e-24
      REXO4 3.245317 1.78e-27                           NM_020385    2.281367e-24
      VPS29 3.827665 2.22e-25                 NM_057180,NM_016226    2.560770e-22
    CYP51A1 3.363149 5.95e-25              NM_000786,NM_001146152    6.239386e-22
      TNPO2 4.707600 1.60e-23 NM_001136195,NM_001136196,NM_013433    1.538000e-20
      NSDHL 2.703922 6.74e-23              NM_001129765,NM_015922    5.980454e-20
     DPYSL2 5.097382 1.29e-22                           NM_001386    1.062868e-19

Also würde ich gerne extrahieren, z.B. zwei Zeilen basierend auf übereinstimmenden strings in $RefSeq_ID, dass funktioniert gut mit den folgenden:

> list<-c("NM_001386", "NM_020385")
> GEMA_EO6<-subset(GEMA_EO5, GEMA_EO5$RefSeq_ID %in% list, drop = TRUE)

> GEMA_EO6

gene_symbol  fold_EO  p_value RefSeq_ID    BH_p_value
      REXO4 3.245317 1.78e-27 NM_020385  2.281367e-24
     DPYSL2 5.097382 1.29e-22 NM_001386  1.062868e-19

Aber einige der Zeilen mehrere RefSeq_IDs mit Komma getrennt, also ich bin auf der Suche nach einer Allgemeinen Weise zu sagen, wenn $RefSeq_ID enthält eine bestimmte Zeichenfolge Muster und dann Teilmenge, die Zeile.

InformationsquelleAutor Toke Duce Krogager | 2012-10-11

r string-matching subset

15

Zu tun partial matching, die Sie brauchen, um reguläre Ausdrücke verwenden (siehe ?grepl). Hier ist eine Lösung für Ihr spezielles problem:
```
##Notice that the first element appears in 
##a row containing commas
l = c( "NM_013433", "NM_001386", "NM_020385")
```
Testen einer Sequenz in einer Zeit, wir wählen Sie einfach eine bestimmte seq-id:
```
R> subset(GEMA_EO5, grepl(l[1], GEMA_EO5$RefSeq_ID))
  gene_symbol fold_EO p_value                           RefSeq_ID BH_p_value
5       TNPO2   4.708 1.6e-23 NM_001136195,NM_001136196,NM_013433  1.538e-20
```
Test für mehrere Gene, die wir verwenden, die | Betreiber:
```
R> paste(l, collapse="|")
[1] "NM_013433|NM_001386|NM_020385"
R> grepl(paste(l, collapse="|"),GEMA_EO5$RefSeq_ID)
[1] FALSE  TRUE FALSE FALSE  TRUE FALSE  TRUE
```
So
```
subset(GEMA_EO5, grepl(paste(l, collapse="|"),GEMA_EO5$RefSeq_ID))
```
sollten Sie geben, was Sie wollen.

Danke! es macht den job perfekt...ich hatte versucht mit grepl, aber da dauert es nur das erste element eines Vektors konnte ich nicht zum laufen bekommen. Sie umgehen dies, indem Sie einfügen(l,collapse="|"), So ist dies Zeichenfolgen voneinander getrennt, oder? Ich denke, ich sollte schauen mehr in regulären Ausdrücken:-)
Ja, die Fäden werden getrennt mit "ORs"

InformationsquelleAutor csgillespie

Ist ein anderer Ansatz zu erkennen, der doppelte Einträge in RefSeq_ID als ein Versuch darstellen, zwei Datenbank-Tabellen in einem einzelnen Daten-frame. Wenn also die original-Tabelle ist csv, dann normalisieren Sie die Daten in zwei Tabellen

Anno <- cbind(key = seq_len(nrow(csv)), csv[,names(csv) != "RefSeq_ID"])
key0 <- strsplit(csv$RefSeq_ID, ",")
RefSeq <- data.frame(key = rep(seq_along(key0), sapply(key0, length)),
                     ID = unlist(key0))

und erkennen, dass die Abfrage eine subset (select) auf der RefSeq Tisch, gefolgt von einem merge (join) mit Anno

l <- c( "NM_013433", "NM_001386", "NM_020385")
merge(Anno, subset(RefSeq, ID %in% l))[, -1]

führt zu

> merge(Anno, subset(RefSeq, ID %in% l))[, -1]
  gene_symbol  fold_EO  p_value   BH_p_value        ID
1       REXO4 3.245317 1.78e-27 2.281367e-24 NM_020385
2       TNPO2 4.707600 1.60e-23 1.538000e-20 NM_013433
3      DPYSL2 5.097382 1.29e-22 1.062868e-19 NM_001386

Vielleicht das Ziel ist die Zusammenführung mit einem "Master" - Tabelle, dann

Master <- cbind(key = seq_len(nrow(csv)), csv)
merge(Master, subset(RefSeq, ID %in% l))[,-1]

oder ähnliches.

InformationsquelleAutor Martin Morgan

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.