Die Berechnung der paarweisen Korrelationen zwischen allen Spalten

Arbeite ich mit großer Biologischer dataset.

Möchte ich berechnen, PCC(Pearson ' s Korrelationskoeffizient) von allen 2-Säulen-Kombinationen in meinem Daten-Tabelle und speichern Sie das Ergebnis als DataFrame oder CSV-Datei.

Daten Tabelle ist wie folgt:die Spalten sind die Namen der Gene und die Zeilen sind der code dataset. Die float-zahlen bedeuten, wie viel die gene aktiviert, die in das dataset.

      GeneA GeneB GeneC ...
DataA 1.5 2.5 3.5 ...
DataB 5.5 6.5 7.5 ...
DataC 8.5 8.5 8.5 ...
...

Als Ausgabe möchte ich zum erstellen der Tabelle(DataFrame oder csv-Datei), wie unten, weil scipy.stats.pearsonr-Funktion gibt (PCC, p-Wert).
In meinem Beispiel XX und YY bedeuten die Ergebnisse der pearsonr([1.5, 5.5, 8.5], [2.5, 6.5, 8.5]). In der gleichen Weise, ZZ und AA-bedeutet das Ergebnis pearsonr([1.5, 5.5, 8.5], [3.5, 7.5, 8.5]). Ich brauche das nicht redundante Daten wie GeneB_GeneA oder GeneC_GeneB in meinem test.

               PCC P-value
GeneA_GeneB    XX YY
GeneA_GeneC    ZZ AA
GeneB_GeneC    BB CC
...

Als die Anzahl der Spalten und Zeilen sind viele(über 100) und Ihre Namen sind kompliziert, mit Spaltennamen oder-Zeile Namen, wird schwierig sein.

Könnte es eine einfache Aufgabe für die Experten, ich weiß nicht, wie viel mit dieser Art von Tabelle mit python pandas-Bibliothek. Vor allem die Herstellung des neuen DataFrame und das hinzufügen von Ergebnis scheint sehr schwierig zu sein.

Sorry für meine schlechte Erklärung, aber ich hoffe, dass mir jemand helfen könnte.

Dies wird hier beantwortet: link
Vielen Dank für Ihren Kommentar. Ich denke, der Titel war nicht gut genug. Was ich wissen will ist nicht, wie zu berechnen, PCC, aber die Berechnung PCC aller Spalten-pair-Mädchen, und speichern Sie die Ergebnisse als einen neuen DataFrame.

InformationsquelleAutor z991 | 2015-11-30

from pandas import *
import numpy as np
from libraries.settings import *
from scipy.stats.stats import pearsonr
import itertools

Erstellung von Stichproben-Daten:

df = DataFrame(np.random.random((5, 5)), columns=['gene_' + chr(i + ord('a')) for i in range(5)]) 
print(df)

     gene_a    gene_b    gene_c    gene_d    gene_e
0  0.471257  0.854139  0.781204  0.678567  0.697993
1  0.292909  0.046159  0.250902  0.064004  0.307537
2  0.422265  0.646988  0.084983  0.822375  0.713397
3  0.113963  0.016122  0.227566  0.206324  0.792048
4  0.357331  0.980479  0.157124  0.560889  0.973161

correlations = {}
columns = df.columns.tolist()

for col_a, col_b in itertools.combinations(columns, 2):
    correlations[col_a + '__' + col_b] = pearsonr(df.loc[:, col_a], df.loc[:, col_b])

result = DataFrame.from_dict(correlations, orient='index')
result.columns = ['PCC', 'p-value']

print(result.sort_index())

                     PCC   p-value
gene_a__gene_b  0.461357  0.434142
gene_a__gene_c  0.177936  0.774646
gene_a__gene_d -0.854884  0.064896
gene_a__gene_e -0.155440  0.802887
gene_b__gene_c -0.575056  0.310455
gene_b__gene_d -0.097054  0.876621
gene_b__gene_e  0.061175  0.922159
gene_c__gene_d -0.633302  0.251381
gene_c__gene_e -0.771120  0.126836
gene_d__gene_e  0.531805  0.356315

Einzigartige Kombinationen von DataFrame Spalten mit
itertools.combination(iterable, r)
Durchlaufen diese Kombinationen und berechnen Sie die paarweisen Korrelationen mit scipy.stats.stats.personr
Fügen Sie die Ergebnisse (PCC und p-Wert-Tupel) zu dictionary
Bauen DataFrame aus dictionary

Könnte man dann auch sparen result.to_csv(). Vielleicht finden Sie es bequem zu verwenden MultiIndex (zwei Spalten mit den Namen der einzelnen Spalten) anstelle von dem erstellten Namen für die paarweisen Korrelationen.

Ich danke Ihnen sehr! Als Sie und ChenZhongPu empfohlen, mit einer Kombination von Funktion scheint zu sein, eine gute Lösung für diese Art von problem. Auch ich möchte Ihnen noch einmal danken für Ihre freundlichen Erklärungen. Es war sehr hilfreich, denn ich bin neu bei python.

InformationsquelleAutor Stefan

Bekommen Paare, es ist ein combinations problem. Sie können concat alle Zeilen in einem Ergebnis dataframe.

from pandas import *
from itertools import combinations
df = pandas.read_csv('gene.csv')
# get the column names as list, which are gene names
column_list = df.columns.values.tolist()
result = []
for c in combinations(column_list, 2):
    firstGene, secondGene = c
    firstGeneData = df[firstGene].tolist()
    secondGeneData = df[secondGene].tolist()
    # now to get the PCC, P-value using scipy
    pcc = ...
    p-value = ...
    result.append(pandas.DataFrame([{'PCC': pcc, 'P-value': p-value}], index=str(firstGene)+ '_' + str(secondGene), columns=['PCC', 'P-value'])

result_df = pandas.concat(result)
#result_df.to_csv(...)

Ich wusste nicht, über 'Kombinationen', aber es sieht so schön, wenn diese Art von paar-Berechnung. Auch habe ich gelernt, dass DataFrame aus der Liste kann einfach keine durch die concat-Funktion. Ich danke Ihnen sehr!

InformationsquelleAutor chenzhongpu

1

Eine einfache Lösung ist die Verwendung der pairwise_corr Funktion der Pingouin-Paket (die ich erstellt):
```
import pingouin as pg
pg.pairwise_corr(data, method='pearson')
```
Dadurch erhalten Sie einen DataFrame mit allen Kombinationen von Spalten, und für jede von diesen, ist der r-Wert, p-Wert, sample-Größe und mehr.

Gibt es auch eine Reihe von Optionen, um eine oder mehrere Spalten angeben (z.B. one-vs-all Verhalten), als auch als kovariablen für die partielle Korrelation und verschiedene Methoden zur Berechnung des Korrelationskoeffizienten. Bitte sehen dieses Beispiel Jupyter Notebook für eine weitere in-depth demo.

InformationsquelleAutor Raphael

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.