Mit Biopython (Python) zu extrahieren Sequenz aus der FASTA-Datei

Ok, also muss ich extrahieren, die Teil einer Sequenz aus einer FASTA-Datei mit python (biopython, http://biopython.org/DIST/docs/tutorial/Tutorial.html)

Ich brauche, um die ersten 10 Basen von jeder Sequenz und setzen Sie Sie in einer Datei, die Erhaltung der Reihenfolge-info aus dem FASTA-format. Schlimmste kommt zum schlimmsten, ich konnte einfach die Grundlagen, wenn es keine Möglichkeit zum halten der sequence info. Hier also ein Beispiel:

>gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA
CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGGAATAAACGATCGAGTG
AATCCGGAGGACCGGTGTACTCAGCTCACCGGGGGCATTGCTCCCGTGGTGACCCTGATTTGTTGTTGGG

>gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA
CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGGAATAAACGATCGAGTG
AATCCGGAGGACCGGTGTACTCAGCTCACCGGGGGCATTGCTCCCGTGGTGACCCTGATTTGTTGTTGGG

>gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA
CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGGAATAAACGATCGAGTG
AATCCGGAGGACCGGTGTACTCAGCTCACCGGGGGCATTGCTCCCGTGGTGACCCTGATTTGTTGTTGGG

Brauche ich einige Weg, um die ersten 10 Basen (und dann ich hatte geplant, es zu tun wieder für die letzten 10 Basen). Das tutorial Website ist Recht gründlich, aber ich bin neu hier und da geht es nicht in diesem, ich bin nicht einmal sicher, ob es möglich ist. Vielen Dank für jede Hilfe, die Sie geben können.

InformationsquelleAutor user1784467 | 2012-10-30

Biopython ist einfach perfekt für diese Art von Aufgaben. Die Seq-Objekt speichert eine Sequenz und info über es. Das Lesen der fasta Datei-format ist straight forward. Sie können den Zugriff auf die Sequenz wie eine einfache Liste und somit Zugang zu bestimmten Positionen einfach wie gut:

from Bio import SeqIO

with open("outfile.txt","w") as f:
        for seq_record in SeqIO.parse("infile.fasta", "fasta"):
                f.write(str(seq_record.id) + "\n")
                f.write(str(seq_record.seq[:10]) + "\n")  #first 10 base positions
                f.write(str(seq_record.seq[-10:]) + "\n") #last 10 base positions

InformationsquelleAutor MoRe

0

Den Biopython Seq-Objekt ist im Grunde ein array, so können Sie angeben, Unterabschnitten es, und übergeben Sie diese in einem neuen Seq-Objekt. Vorausgesetzt, dass Sie gelesen haben, diese in ein seqrecord (Wörterbuch), dann mit dem folgenden code können Sie einfach geben Sie die start-end-position.
```
SeqRecords[Seq][start:end].seq
```
Dadurch erhalten Sie die Sequenz-Objekt der SeqRecord zwischen den start-und end-Positionen, die Ganzzahlen sind. Aus dem Gedächtnis gibt es einige funnyness über die start - /end-Indizierung, aber spielen, um zu bekommen die Idee. Sie sollten auch in der Lage sein anzugeben:
```
SeqRecords[Seq][:end].seq
```
Um die Sequenz von Beginn der SeqRecord.

Vollständigkeit halber - zu Lesen in den Dateien wie dieses:
```
inputSeqFile = open(filename, "rU")
SeqDict = SeqIO.to_dict(SeqIO.parse(inputSeqFile, "fasta"))
inputSeqFile.close()
```
Hoffe, das hilft.

InformationsquelleAutor niallhaslam

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.