Einbau-Distributionen, goodness-of-fit, p-Wert. Ist es möglich, dies zu tun mit Scipy (Python)?

EINLEITUNG: ich bin ein Bioinformatiker. In meiner Analyse, die ich durchführen auf alle menschlichen Gene (etwa 20 000) ich Suche eine bestimmte kurze Sequenz-Motiv, um zu überprüfen, wie viele Male dieses Motiv tritt in jeder gen.

Gene sind 'geschrieben' in einer linearen Sequenz in vier Buchstaben A,T,G,C). Zum Beispiel: CGTAGGGGGTTTAC... das ist das vier-Buchstaben-alphabet des genetischen Codes ist wie die geheime Sprache der einzelnen Zelle, wie der DNA tatsächlich Informationen speichert.

Ich vermute, dass häufige repetations einer bestimmten kurzen Sequenz-Motiv (AGTGGAC) in einigen Genen, die entscheidend sind in einem bestimmten biochemischen Prozess in der Zelle. Da das Motiv selbst ist sehr kurz, es ist schwierig mit computational tools zu unterscheiden zwischen wahren funktionellen Beispiele in den Genen, und denen, die ähnlich Aussehen wie Zufall. Um dieses problem zu vermeiden bekomme ich die Sequenzen aller Gene und verkettet in eine einzelne Zeichenfolge und hergeschoben. Die Länge von jeder der ursprünglichen Genen gespeichert wurde. Dann für jede der ursprünglichen Reihenfolge, Längen, eine zufällige Sequenz konstruiert wurde, die von wiederholt Kommissionierung A oder T, G oder C zufällig aus der Sequenz verkettet und übertragen Sie an die zufällige Reihenfolge. Auf diese Weise wird die Ergebnismenge der randomisierten Sequenzen die gleiche Länge, die Verteilung, die Allgemeine A,T,G,C Zusammensetzung. Dann Suche ich für das Motiv in dieser randomisierten Sequenzen. Ich permormed dieses Verfahren 1000-mal und erzielte Ergebnisse.

15000 Gene, die nicht enthalten ein bestimmtes Motiv
5000 Gene, enthalten 1 Motiv
3000 Gene, die Sie enthalten, 2 Motive
1000 Gene, die Sie enthalten, 3 Motive
...
1-Gens enthält 6 Motive

Also auch nach 1000 mal Randomisierung der wahren genetischen code, es gibt keine Gene, die mehr als 6 Motive. Aber in der wahren genetischen code, es gibt ein paar Gene, die enthalten mehr als 20 vorkommen das Motiv, die darauf hindeuten, dass diese Wiederholung mag funktional sein, und es ist unwahrscheinlich, dass Sie in einer solchen fülle durch reinen Zufall.

PROBLEM:
Ich würde gerne wissen, die Wahrscheinlichkeit, ein gen mit sagen wir mal 20 vorkommen des Motivs in meiner Verteilung. Deshalb möchte ich wissen, die Wahrscheinlichkeit Sie zu finden, wie ein gen durch Zufall. Ich möchte, um dies zu implementieren in Python, aber ich weiß nicht, wie.

Kann ich tun, solch eine Analyse in Python?

Jede Hilfe würde geschätzt werden.

  • Bitte beachten Sie, dass Sie geändert haben wesentlich zu Ihrer Frage. Wäre es möglich, wieder diese Frage zu deiner ursprünglichen Frage und ein klares "update" - Sektion für alle neuen details? Oder vielleicht einfach nur eine neue Frage? Dank
  • Sie könnten prüfen, ob Sie dies auf BioStar
  • Ich habe eine neue Frage: stackoverflow.com/questions/6620471/...
InformationsquelleAutor s_sherly | 2011-07-07
Schreibe einen Kommentar