Komplement einer DNA-Sequenz

Angenommen ich habe eine DNA-Sequenz. Ich möchte das ergänzen. Ich verwendete den folgenden code, aber ich bin nicht immer es. Was mache ich falsch ?

s=readline()
ATCTCGGCGCGCATCGCGTACGCTACTAGC
p=unlist(strsplit(s,""))
h=rep("N",nchar(s))
unlist(lapply(p,function(d){
for b in (1:nchar(s)) {    
    if (p[b]=="A") h[b]="T"
    if (p[b]=="T") h[b]="A"
    if (p[b]=="G") h[b]="C"
    if (p[b]=="C") h[b]="G"
}

InformationsquelleAutor Anurag Mishra | 2013-12-04

Verwenden chartr die für diesen Zweck gebaut:

> s
[1] "ATCTCGGCGCGCATCGCGTACGCTACTAGC"
> chartr("ATGC","TACG",s)
[1] "TAGAGCCGCGCGTAGCGCATGCGATGATCG"

Nur, es werden zwei gleich-length character strings und den string. Auch vektorisierte über das argument für die übersetzung:

> chartr("ATGC","TACG",c("AAAACG","TTTTT"))
[1] "TTTTGC" "AAAAA"

Hinweis ich mache den Austausch über die string-Darstellung des DNA-eher als die vector. Konvertieren Sie die Vektor würde ich erstellen Sie eine lookup-map als eine benannte Vektor-und index:

> p
 [1] "A" "T" "C" "T" "C" "G" "G" "C" "G" "C" "G" "C" "A" "T" "C" "G" "C" "G" "T"
[20] "A" "C" "G" "C" "T" "A" "C" "T" "A" "G" "C"
> map=c("A"="T", "T"="A","G"="C","C"="G")
> unname(map[p])
 [1] "T" "A" "G" "A" "G" "C" "C" "G" "C" "G" "C" "G" "T" "A" "G" "C" "G" "C" "A"
[20] "T" "G" "C" "G" "A" "T" "G" "A" "T" "C" "G"

InformationsquelleAutor Spacedman

Den Bioconductor Paket Biostrings hat viele nützliche Funktionen für diese Art der operation. Installieren Sie einmal:

source("http://bioconductor.org/biocLite.R")
biocLite("Biostrings")

dann verwenden

library(Biostrings)
dna = DNAStringSet(c("ATCTCGGCGCGCATCGCGTACGCTACTAGC", "ACCGCTA"))
complement(dna)

InformationsquelleAutor Martin Morgan

sapply(p, switch,  "A"="T", "T"="A","G"="C","C"="G")
  A   T   C   T   C   G   G   C   G   C   G   C   A   T   C   G   C   G   T 
"T" "A" "G" "A" "G" "C" "C" "G" "C" "G" "C" "G" "T" "A" "G" "C" "G" "C" "A" 
  A   C   G   C   T   A   C   T   A   G   C 
"T" "G" "C" "G" "A" "T" "G" "A" "T" "C" "G"

Wenn Sie nicht möchten, dass die komplementär-Namen, Sie können immer Streifen Sie mit unname.

unname(sapply(p, switch,  "A"="T", "T"="A","G"="C","C"="G") )
 [1] "T" "A" "G" "A" "G" "C" "C" "G" "C" "G" "C" "G" "T" "A" "G" "C" "G" "C"
[19] "A" "T" "G" "C" "G" "A" "T" "G" "A" "T" "C" "G"
>

das ist schön ich wusste nie, die switch Funktion.
Scheint fast benutzerdefinierte gebaut für diesen Zweck.
Custom built von jemand, der keine ästhetischen Sinn, vielleicht! 🙂

InformationsquelleAutor 42-

5

Gibt es auch ein Paket seqinr
```
library(seqinr)
comp(seq) # gives complement
rev(comp(seq)) # gives the reverse complement
```
Biostrings hat einen viel kleineren Speicher-Profil, aber seqinr ist auch schön, weil Sie können wählen, die bei den Basen (auch mixed) und ändern Sie alles, was Sie wollen, zum Beispiel, wenn Sie möchten, eine Mischung von T und U in der gleichen Reihenfolge. Biostrings zwingt Sie dazu, entweder T oder U.

Ich bin mir nicht sicher, das ist vollkommen richtig: comp("u") gibt NA

InformationsquelleAutor JeremyS

Zur Ergänzung, in den beiden oberen und unteren Fall, können Sie chartr():

n <- "ACCTGccatGCATC"
chartr("acgtACGT", "tgcaTGCA", n)
# [1] "TGGACggtaCGTAG"

Einen Schritt weiter und reverse Komplement der Nukleotidsequenz, können Sie folgende Funktion verwenden:

library(stringi)

rc <- function(nucSeq)
  return(stri_reverse(chartr("acgtACGT", "tgcaTGCA", nucSeq)))

rc("AcACGTgtT")
# [1] "AacACGTgT"

InformationsquelleAutor Megatron

Hier eine Antwort mit base-r. Geschrieben mit einem schrecklichen Formatierung, um die Dinge klarzustellen, und es als one-liner. Es unterstützt die groß-und Kleinschreibung.

revc = function(s){
       paste0(
           rev(
            unlist(
             strsplit(
                chartr("ATGCatgc","TACGtacg",s)
                      , "")                        # from strsplit
                   )                               # from unlist
               )                                   # from rev
             , collapse='')                        # from paste0
       }

InformationsquelleAutor pedrosaurio

0

Habe ich verallgemeinert die Lösung rev(comp(seq)) mit der seqinr Paket:
```
install.packages("devtools")
devtools::install_github("TomKellyGenetics/tktools")
tktools::revcomp(seq)
```
Diese version ist kompatibel mit den string-Eingängen und vektorisiert zu behandeln, Liste oder Vektor-Eingabe mehrere Zeichenfolgen. Die Leistungsklasse sollte der Eingabe entsprechen, einschließlich der Fälle und Typen. Dies unterstützen auch die Eingänge mit "U" für die RNA-und RNA-output-Sequenzen.
```
> seq <- "ATCTCGGCGCGCATCGCGTACGCTACTAGC"
> revcomp(seq)
[1] "GCTAGTAGCGTACGCGATGCGCGCCGAGAT"

> seq <- c("TATAAT", "TTTCGC", "atgcat")
> revcomp(seq)
  TATAAT   TTTCGC   atgcat 
 "ATTATA" "GCGAAA" "atgcat" 
```
Sehen die Handbuch oder die TomKellyGenetics/tktools github-Paket-repository.

InformationsquelleAutor Tom Kelly

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.