Wie konvertiere ich die drei-Buchstaben-Aminosäure-codes zu einem Buchstaben-code mit python-oder R?

Habe ich eine fasta-Datei, wie unten gezeigt. Ich möchte konvertieren, die drei-Buchstaben-codes zu einem Buchstaben-code. Wie kann ich das mit python oder R?

>2ppo
ARGHISLEULEULYS
>3oot
METHISARGARGMET

gewünschte Ausgabe

>2ppo
RHLLK
>3oot
MHRRM

Ihre Vorschläge würden geschätzt!!

Wie ist ARGHISLEULEULYS umgewandelt RHLLK? Was ist die Logik?
ARG = R, HIS = H, LEU = L, etc
etc.? Es wäre nützlich, fügen Sie die vollständige übersetzung Liste auf die Frage, oder zumindest einen link darauf. Ich möchte helfen, mit dieser Frage, aber ich bin nicht in der Lage, es sei denn, ich bekommen alle notwendigen Informationen.
en.wikipedia.org/wiki/...
ah, so müssen Sie nach split die Zeichenfolge in ein array nehmen jedes 3. element des Arrays als letzten string?
Wie wäre es mit: stat.ethz.ch/pipermail/bioconductor/2008-January/020958.html
Ich bin neugierig, wo Sie so einen Datei - ich habe nie gesehen, eine FASTA-Datei mit drei-Buchstaben-Aminosäure-codes wie der.

InformationsquelleAutor user1725152 | 2012-10-06

13

BioPython verfügt bereits über integrierte Wörterbücher zu helfen, mit solchen übersetzungen. Folgende Befehle zeigen Sie eine Liste Verfügbarer Wörterbücher:
```
import Bio
help(Bio.SeqUtils.IUPACData)
```
Die eingebauten dictionary-Sie suchten:
```
Bio.SeqUtils.IUPACData.protein_letters_3to1['Ala']
```
- Dies sollte die gewählte Antwort. Ein kleiner Hinweis noch: In Python ist3 mindestens die Methode ist eigentlich unter dem Modul Bio.Data, während Bio.SeqUtilis importiert es von dort, also wenn man wollte, nur die Methode protein_letters_3to1 in den aktuellen namespace, die man tun konnte: from Bio.Data.IUPACData import protein_letters_3to1
InformationsquelleAutor Henk Neefs

Verwenden Sie ein Wörterbuch zum nachschlagen der einer Buchstaben-codes:

d = {'CYS': 'C', 'ASP': 'D', 'SER': 'S', 'GLN': 'Q', 'LYS': 'K',
     'ILE': 'I', 'PRO': 'P', 'THR': 'T', 'PHE': 'F', 'ASN': 'N', 
     'GLY': 'G', 'HIS': 'H', 'LEU': 'L', 'ARG': 'R', 'TRP': 'W', 
     'ALA': 'A', 'VAL':'V', 'GLU': 'E', 'TYR': 'Y', 'MET': 'M'}

Und eine einfache Funktion zum match-die drei-Buchstaben-codes mit einem Buchstaben-codes, die für den gesamten string:

def shorten(x):
    if len(x) % 3 != 0: 
        raise ValueError('Input length should be a multiple of three')

    y = ''
    for i in range(len(x)/3):
            y += d[x[3*i:3*i+3]]
    return y

Testen Sie Ihre Beispiel:

>>> shorten('ARGHISLEULEULYS')
'RHLLK'

Ich danke Ihnen sehr für Ihre Antwort. Ich bin neu in python. Wie kann ich das Parsen der input-Datei in Ihrem code?
Das kommt auf das format der Eingabe-Datei. Aber ich glaube, es könnte so etwas wie for line in inputfile: print(shorten(line)).

InformationsquelleAutor Junuxx

7

Hier ist ein Weg, es zu tun in R:
```
# Variables:
foo <- c("ARGHISLEULEULYS","METHISARGARGMET")

# Code maps:
code3 <- c("Ala", "Arg", "Asn", "Asp", "Cys", "Glu", "Gln", "Gly", "His", 
"Ile", "Leu", "Lys", "Met", "Phe", "Pro", "Ser", "Thr", "Trp", 
"Tyr", "Val")
code1 <- c("A", "R", "N", "D", "C", "E", "Q", "G", "H", "I", "L", "K", 
"M", "F", "P", "S", "T", "W", "Y", "V")

# For each code replace 3letter code by 1letter code:
for (i in 1:length(code3))
{
    foo <- gsub(code3[i],code1[i],foo,ignore.case=TRUE)
}
```
Ergebnisse in :
```
> foo
[1] "RHLLK" "MHRRM"
```
Beachten Sie, dass ich änderte den Namen der Variablen als Variablen-Namen dürfen nicht mit einer Zahl beginnen, in R.
- Dies ist nicht gut. Nehmen TRPHISGLU als ein Beispiel, Sie erwarten, dass der Algorithmus wie folgt übersetzen {TRP}{SEINE}{GLU -} - > OB aber das, was wirklich passiert mit Ihrem Algorithmus TRP{SEINE}{GLU -} - > TR{PHE} -> TRF. Sie brauchen, um split foo in Teilstrings von drei Zeichen, die zur Vermeidung solcher möglichen Wechselwirkungen.
- Hinweis: diese Zuordnung findet Selenocystein
InformationsquelleAutor Sacha Epskamp

>>> src = "ARGHISLEULEULYS"
>>> trans = {'ARG':'R', 'HIS':'H', 'LEU':'L', 'LYS':'K'}
>>> "".join(trans[src[x:x+3]] for x in range(0, len(src), 3))
'RHLLK'

Müssen Sie nur fügen Sie die restlichen Einträge in der trans dict.

Edit:

Machen den rest trans können Sie dies tun. Datei table:

Ala A
Arg R
Asn N
Asp D
Cys C
Glu E
Gln Q
Gly G
His H
Ile I
Leu L
Lys K
Met M
Phe F
Pro P
Ser S
Thr T
Trp W
Tyr Y
Val V

Lesen:

trans = dict((l.upper(), s) for l, s in
             [row.strip().split() for row in open("table").readlines()])

InformationsquelleAutor John La Rooy

Können Sie versuchen, die Suche in und die Installation Biopython da Sie Parsen ein .fasta-Datei und dann Umwandlung in eine Buchstaben-codes. Leider Biopython nur die Funktion hat, seq3(im Paket Bio::SeqUtils), die nicht die inverse von dem, was Sie wollen. Beispiel für die Ausgabe im LEERLAUF:

>>>seq3("MAIVMGRWKGAR*")
>>>'MetAlaIleValMetGlyArgTrpLysGlyAlaArgTer'

Leider, es gibt keine "seq1" - Funktion (noch nicht...), aber ich dachte, das könnte hilfreich sein, um Sie in der Zukunft. Soweit Ihr problem, Junuxx korrekt ist. Erstellen Sie ein Wörterbuch und verwenden Sie eine for-Schleife zum Lesen der string in Blöcke von drei und übersetzen. Hier ist eine ähnliche Funktion wie die, die er zur Verfügung gestellt ist all-inclusive und Griffe untere Fällen als gut.

def AAcode_3_to_1(seq):
    '''Turn a three letter protein into a one letter protein.

    The 3 letter code can be upper, lower, or any mix of cases
    The seq input length should be a factor of 3 or else results
    in an error

    >>>AAcode_3_to_1('METHISARGARGMET')
    >>>'MHRRM'

    '''
    d = {'CYS': 'C', 'ASP': 'D', 'SER': 'S', 'GLN': 'Q', 'LYS': 'K',
     'ILE': 'I', 'PRO': 'P', 'THR': 'T', 'PHE': 'F', 'ASN': 'N', 
     'GLY': 'G', 'HIS': 'H', 'LEU': 'L', 'ARG': 'R', 'TRP': 'W', 'TER':'*',
     'ALA': 'A', 'VAL':'V', 'GLU': 'E', 'TYR': 'Y', 'MET': 'M','XAA':'X'}

    if len(seq) %3 == 0:
        upper_seq= seq.upper()
        single_seq=''
        for i in range(len(upper_seq)/3):
            single_seq += d[upper_seq[3*i:3*i+3]]
        return single_seq
    else:
        print("ERROR: Sequence was not a factor of 3 in length!")

Sie werden in der Lage sein zu verwenden Bio.SeqUtils.seq1 ab der nächsten Version, Biopython 1.61 (oder laufen aus dem github-repository, wenn Sie gerne auf die Vorderkante).

InformationsquelleAutor Wes Field

Biopython hat eine schöne Lösung

>>> from Bio.PDB.Polypeptide import *
>>> three_to_one('ALA')
'A'

Für dein Beispiel, ich werde es lösen, indem diese ein liner

>>> from Bio.PDB.Polypeptide import *
>>> str3aa = 'ARGHISLEULEULYS'
>>> "".join([three_to_one(aa3) for aa3 in [ "".join(g) for g in zip(*(iter(str3aa),) * 3)]])
>>> 'RHLLK'

Können Sie kritisieren mich für diese Art von one-liner :), aber tief in meinem Herzen bin ich immer noch in der Liebe mit PERL.

InformationsquelleAutor ghosh'.

3

R:
```
convert <- function(l) {

  map <- c("A", "R", "N", "D", "C", "E", "Q", "G", "H", "I",
           "L", "K", "M", "F", "P", "S", "T", "W", "Y", "V")

  names(map) <- c("ALA", "ARG", "ASN", "ASP", "CYS", "GLU", "GLN",
                  "GLY", "HIS", "ILE", "LEU", "LYS", "MET", "PHE",
                  "PRO", "SER", "THR", "TRP", "TYR", "VAL")

  sapply(strsplit(l, "(?<=[A-Z]{3})", perl = TRUE),
         function(x) paste(map[x], collapse = ""))
}

convert(c("ARGHISLEULEULYS", "METHISARGARGMET"))
# [1] "RHLLK" "MHRRM"
```
- +1 für die clevere Methode der Aufspaltung eine string in 3-Zeichen-Teilfolgen. Es zeigt etwas Interessantes darüber, wie die regex-matching funktioniert.
- Ich danke Ihnen sehr für Ihre Antwort. Ich habe mehr als 1000 Sequenzen. es ist in einer text-Datei. Zuerst habe ich diese Datei zu importieren in r und hat zu ändern, die drei-Buchstaben-codes zu schreiben.Ich habe gezeigt, den gewünschten output.Wenn Sie können, helfen Sie mir bitte.
- Die Funktion habe ich gezeigt, Sie nimmt einen Vektor, der die Sequenzen als Eingabe. So Lesen Sie eine FASTA-Datei in einen Vektor, der die Sequenzen in R ist eine andere Frage. Eine schnelle Google-Suche und ich kann Sie zu mindestens drei verschiedene Pakete: Biostrings (readFASTA), seqinr (read.fasta), bio3d (read.fasta).
InformationsquelleAutor flodel

Anderen Weg, es zu tun ist mit der seqinr und iPAC Paket in R.

# install.packages("seqinr")
# source("https://bioconductor.org/biocLite.R")
# biocLite("iPAC")

library(seqinr)
library(iPAC)

#read in file
fasta = read.fasta(file = "test_fasta.fasta", seqtype = "AA", as.string = T, set.attributes = F)
#split string
n = 3
fasta1 = lapply(fasta,  substring(x,seq(1,nchar(x),n),seq(n,nchar(x),n)))
#convert the three letter code for each element in the list 
fasta2 = lapply(fasta1, function(x) paste(sapply(x, get.SingleLetterCode), collapse = ""))

# > fasta2
# $`2ppo`
# [1] "RHLLK"
#
# $`3oot`
# [1] "MHRRM"

InformationsquelleAutor paul_dg

my %aa_hash=(
  Ala=>'A',
  Arg=>'R',
  Asn=>'N',
  Asp=>'D',
  Cys=>'C',
  Glu=>'E',
  Gln=>'Q',
  Gly=>'G',
  His=>'H',
  Ile=>'I',
  Leu=>'L',
  Lys=>'K',
  Met=>'M',
  Phe=>'F',
  Pro=>'P',
  Ser=>'S',
  Thr=>'T',
  Trp=>'W',
  Tyr=>'Y',
  Val=>'V',
  Sec=>'U',                       #http://www.uniprot.org/manual/non_std;Selenocysteine (Sec) and pyrrolysine (Pyl)
  Pyl=>'O',
);


    while(<>){
            chomp;
            my $aa=$_;
            warn "ERROR!! $aa invalid or not found in hash\n" if !$aa_hash{$aa};
            print "$aa\t$aa_hash{$aa}\n";
    }

Verwenden Sie dieses perl-Skript zum konvertieren Drilling ein.a-codes um einzelne Buchstaben-code.

InformationsquelleAutor Kanhu charan Moharana

0

Für diejenigen, die hier land auf 2017 und darüber hinaus:

Hier ist eine einzige Zeile, Linux-bash-Befehl zum konvertieren von protein-Aminosäuren drei-Buchstaben-code, um einzelne Buchstaben-code in einer text-Datei. Ich weiß, das ist nicht sehr elegant, aber ich hoffe, das hilft jemand auf der Suche für das gleiche verwenden möchten Befehlszeile.
```
sed 's/ALA/A/g;s/CYS/C/g;s/ASP/D/g;s/GLU/E/g;s/PHE/F/g;s/GLY/G/g;s/HIS/H/g;s/HID/H/g;s/HIE/H/g;s/ILE/I/g;s/LYS/K/g;s/LEU/L/g;s/MET/M/g;s/ASN/N/g;s/PRO/P/g;s/GLN/Q/g;s/ARG/R/g;s/SER/S/g;s/THR/T/g;s/VAL/V/g;s/TRP/W/g;s/TYR/Y/g;s/MSE/X/g' < input_file_three_letter_code.txt > output_file_single_letter_code.txt
```
Lösung für die ursprüngliche Frage oben, als eine einzige Befehlszeile:
```
sed 's/.\{3\}/& /g' | sed 's/ALA/A/g;s/CYS/C/g;s/ASP/D/g;s/GLU/E/g;s/PHE/F/g;s/GLY/G/g;s/HIS/H/g;s/HID/H/g;s/HIE/H/g;s/ILE/I/g;s/LYS/K/g;s/LEU/L/g;s/MET/M/g;s/ASN/N/g;s/PRO/P/g;s/GLN/Q/g;s/ARG/R/g;s/SER/S/g;s/THR/T/g;s/VAL/V/g;s/TRP/W/g;s/TYR/Y/g;s/MSE/X/g' | sed 's///g' < input_file_three_letter_code.txt > output_file_single_letter_code.txt
```
Erklärung:

[1] sed 's/.\{3\}/& /g' wird spllit der Sequenz. Es wird ein Leerzeichen nach jedem 3. Buchstaben.

[2] Die zweite 'sed' Befehl in der pipe wird die Ausgabe des oben und zu konvertieren einzelnen Buchstaben-code. Fügen Sie alle nicht-standard-Rückstände als s/XYZ/X/g;
zu diesem Befehl.

[3] Der Dritte 'sed' Befehl sed 's///g' entfernen von Leerzeichen.

InformationsquelleAutor Insilico

Python 3 Lösungen.

In meiner Arbeit, die genervt ist, dass man die Aminosäure-codes beziehen können, um die modifizierten, die oft erscheinen in der PDB/mmCIF-Dateien, wie

'Tih'-->'A'.

So kann sich das mapping mehr als 22 Paare. Die 3rd-party-tools in Python-wie

Bio.SeqUtils.IUPACData.protein_letters_3to1

kann nicht damit umgehen. Meine einfachste Lösung ist die Nutzung der http://www.ebi.ac.uk/pdbe-srv/pdbechem zu finden, die Zuordnung und Beurteilung der ungewöhnliche Zuordnung zu den dict-in meinem eigenen Funktionen, Wann immer ich Ihnen begegnen.

def three_to_one(three_letter_code):
    mapping = {'Aba':'A','Ace':'X','Acr':'X','Ala':'A','Aly':'K','Arg':'R','Asn':'N','Asp':'D','Cas':'C',
           'Ccs':'C','Cme':'C','Csd':'C','Cso':'C','Csx':'C','Cys':'C','Dal':'A','Dbb':'T','Dbu':'T',
           'Dha':'S','Gln':'Q','Glu':'E','Gly':'G','Glz':'G','His':'H','Hse':'S','Ile':'I','Leu':'L',
           'Llp':'K','Lys':'K','Men':'N','Met':'M','Mly':'K','Mse':'M','Nh2':'X','Nle':'L','Ocs':'C',
           'Pca':'E','Phe':'F','Pro':'P','Ptr':'Y','Sep':'S','Ser':'S','Thr':'T','Tih':'A','Tpo':'T',
           'Trp':'W','Tyr':'Y','Unk':'X','Val':'V','Ycm':'C','Sec':'U','Pyl':'O'} # you can add more
    return mapping[three_letter_code[0].upper() + three_letter_code[1:].lower()]

Die andere Lösung ist das abrufen der mapping-online (Aber die url und die html-Muster kann sich ändern durch die Zeit):

import re
import urllib.request

def three_to_one_online(three_letter_code):
    url = "http://www.ebi.ac.uk/pdbe-srv/pdbechem/chemicalCompound/show/" + three_letter_code
    with urllib.request.urlopen(url) as response:
        single_letter_code = re.search('\s*<td\s*>\s*<h3>One-letter code.*</h3>\s*</td>\s*<td>\s*([A-Z])\s*</td>', response.read().decode('utf-8')).group(1)
    return single_letter_code