Wie erhöhe ich die Richtigkeit meiner Linearen Regressionsmodell?(maschinelles lernen mit python)

Ich habe eine machine-learning-Projekt mit python mithilfe von scikit-learn Bibliothek. Ich habe zwei getrennte Datensätze für die Ausbildung und Prüfung, und ich versuche zu tun, die lineare regression. Ich verwenden Sie diesen codeblock unten gezeigt:

import numpy as np
import pandas as pd
import scipy
import matplotlib.pyplot as plt
from pylab import rcParams
import urllib
import sklearn
from sklearn.linear_model import LinearRegression
df =pd.read_csv("TrainingData.csv")
df2=pd.read_csv("TestingData.csv")

df['Development_platform']= ["".join("%03d" % ord(c) for c in s) for s in df['Development_platform']]
df['Language_Type']= ["".join("%03d" % ord(c) for c in s) for s in df['Language_Type']]


df2['Development_platform']= ["".join("%03d" % ord(c) for c in s) for s in df2['Development_platform']]
df2['Language_Type']= ["".join("%03d" % ord(c) for c in s) for s in df2['Language_Type']]

X_train = df[['AFP','Development_platform','Language_Type','Resource_Level']]
Y_train = df['Effort']

X_test=df2[['AFP','Development_platform','Language_Type','Resource_Level']]
Y_test=df2['Effort']
lr = LinearRegression().fit(X_train, Y_train)
print("lr.coef_: {}".format(lr.coef_))
print("lr.intercept_: {}".format(lr.intercept_))
print("Training set score: {:.2f}".format(lr.score(X_train, Y_train)))
print("Test set score: {:.7f}".format(lr.score(X_test, Y_test)))

Meine Ergebnisse sind:
lr.coef_: [ 2.32088001 e+00 2.07441948 e-12 -4.73338567 e-05 6.79658129 e+02]

lr.intercept_: 2166.186033098048

Trainings-set Punktzahl: 0.63

Test-set Punktzahl: 0.5732999

Was empfehlen Sie mir? Wie kann ich meine Genauigkeit erhöhen? (hinzufügen von code,parameter etc.)
Meine Datensätze ist hier: https://yadi.sk/d/JJmhzfj-3QCV4V

Verwenden Regularisierung. Davon abgesehen: es ist zu breit und hängt immer von den Daten, was nicht gegeben ist!
Wenn Sie die csv-Dateien die Menschen geben könnte, konkrete Verbesserungen.
Ich fügte hinzu, datasets

InformationsquelleAutor f.koglu | 2017-11-30

Werde ich erarbeiten ein wenig auf @GeorgiKaradjov Antwort mit einigen Beispielen. Ihre Frage ist sehr breit, und es gibt mehrere Möglichkeiten, um Verbesserungen. Am Ende, mit domain-wissen (Kontext) geben Ihnen die bestmögliche chance auf Verbesserungen.

Normalisieren Sie Ihre Daten, dh, verschieben Sie auf einen Mittelwert von null und eine Streuung von 1 Standardabweichung
Drehen kategorische Daten werden in den Variablen über, z.B., OneHotEncoding
Tun Funktion engineering:
- Sind meine Eigenschaften kollinearer?
- Nicht alle meine Funktionen cross terms/höherer Ordnung Begriffen?
Regularisierung der features zu reduzieren, mögliche überanpassung
Blick auf alternative Modelle gegeben, die zugrunde liegenden Funktionen und dem Ziel, das Projekt

1) Normalisierung der Daten

from sklearn.preprocessing import StandardScaler
std = StandardScaler()
afp = np.append(X_train['AFP'].values, X_test['AFP'].values)
std.fit(afp)

X_train[['AFP']] = std.transform(X_train['AFP'])
X_test[['AFP']] = std.transform(X_test['AFP'])

Gibt

0    0.752395
1    0.008489
2   -0.381637
3   -0.020588
4    0.171446
Name: AFP, dtype: float64

2) Kategorische Feature Codierung

def feature_engineering(df):

    dev_plat = pd.get_dummies(df['Development_platform'], prefix='dev_plat')
    df[dev_plat.columns] = dev_plat
    df = df.drop('Development_platform', axis=1)

    lang_type = pd.get_dummies(df['Language_Type'], prefix='lang_type')
    df[lang_type.columns] = lang_type
    df = df.drop('Language_Type', axis=1)

    resource_level = pd.get_dummies(df['Resource_Level'], prefix='resource_level')
    df[resource_level.columns] = resource_level
    df = df.drop('Resource_Level', axis=1)

    return df

X_train = feature_engineering(X_train)
X_train.head(5)

Gibt

AFP dev_plat_077070 dev_plat_077082 dev_plat_077117108116105    dev_plat_080067 lang_type_051071076 lang_type_052071076 lang_type_065112071 resource_level_1    resource_level_2    resource_level_4
0   0.752395    1   0   0   0   1   0   0   1   0   0
1   0.008489    0   0   1   0   0   1   0   1   0   0
2   -0.381637   0   0   1   0   0   1   0   1   0   0
3   -0.020588   0   0   1   0   1   0   0   1   0   0

3) Feature Engineering; Kollinearität

import seaborn as sns
corr = X_train.corr()
sns.heatmap(corr, mask=np.zeros_like(corr, dtype=np.bool), cmap=sns.diverging_palette(220, 10, as_cmap=True), square=True)

Wie erhöhe ich die Richtigkeit meiner Linearen Regressionsmodell?(maschinelles lernen mit python)

Du willst die rote Linie für y=x da die Werte sollten korreliert sein mit sich. Aber keine roten oder blauen Säulen zeigen eine starke Korrelation/anti-Korrelation, erfordert eine genauere Untersuchung. Zum Beispiel, Ressource=1, Resource=4, könnte eine hohe Korrelation in dem Sinne, wenn Menschen 1 es gibt eine geringere chance zu haben, 4 usw. Regression wird davon ausgegangen, dass die verwendeten Parameter sind von einander unabhängig.

3) Feature engineering, höhere Reihenfolge Begriffe

Vielleicht ist dein Modell ist zu einfach, Sie könnte prüfen, indem höhere Bestell-und cross-Bedingungen:

from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures(2, interaction_only=True)
output_nparray = poly.fit_transform(df)
target_feature_names = ['x'.join(['{}^{}'.format(pair[0],pair[1]) for pair in tuple if pair[1]!=0]) for tuple in [zip(df.columns, p) for p in poly.powers_]]
output_df = pd.DataFrame(output_nparray, columns=target_feature_names)

Hatte ich einen schnellen Versuch an, ich glaube nicht, dass die höhere Reihenfolge Begriffe helfen viel. Es ist auch möglich Ihre Daten nicht-lineare, eine schnelle logarithm oder die Y-Ausgang gibt ein schlechter fit, was darauf hindeutet, es ist linear. Sie könnten auch einen Blick auf den aktuellen Werten, aber ich war zu faul....

4) Regularisierung

Versuchen Sie es mit sklearn ist RidgeRegressor und spielen mit alpha:

lr = RidgeCV(alphas=np.arange(70,100,0.1), fit_intercept=True)

5) Alternative Modelle

Manchmal die lineare regression ist nicht immer geeignet. Zum Beispiel, Random Forest Regressoren kann ausführen sehr gut, und sind in der Regel unempfindlich gegen die Daten werden vereinheitlicht und als kategorischen/permanent. Andere Modelle verfügen über XGBoost, und Lasso (der Linearen regression mit L1-Regularisierung).

lr = RandomForestRegressor(n_estimators=100)

Setzen Sie alle zusammen

Ich wurde mitgerissen und begann, mich an Ihrem problem, konnte es aber nicht verbessern, ist es zu viel, ohne zu wissen, alle die Kontext-Funktionen:

import numpy as np
import pandas as pd
import scipy
import matplotlib.pyplot as plt
from pylab import rcParams
import urllib
import sklearn
from sklearn.linear_model import RidgeCV, LinearRegression, Lasso
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import StandardScaler, PolynomialFeatures
from sklearn.model_selection import GridSearchCV

def feature_engineering(df):

    dev_plat = pd.get_dummies(df['Development_platform'], prefix='dev_plat')
    df[dev_plat.columns] = dev_plat
    df = df.drop('Development_platform', axis=1)

    lang_type = pd.get_dummies(df['Language_Type'], prefix='lang_type')
    df[lang_type.columns] = lang_type
    df = df.drop('Language_Type', axis=1)

    resource_level = pd.get_dummies(df['Resource_Level'], prefix='resource_level')
    df[resource_level.columns] = resource_level
    df = df.drop('Resource_Level', axis=1)

    return df

df = pd.read_csv("TrainingData.csv")
df2 = pd.read_csv("TestingData.csv")

df['Development_platform']= ["".join("%03d" % ord(c) for c in s) for s in df['Development_platform']]
df['Language_Type']= ["".join("%03d" % ord(c) for c in s) for s in df['Language_Type']]

df2['Development_platform']= ["".join("%03d" % ord(c) for c in s) for s in df2['Development_platform']]
df2['Language_Type']= ["".join("%03d" % ord(c) for c in s) for s in df2['Language_Type']]

X_train = df[['AFP','Development_platform','Language_Type','Resource_Level']]
Y_train = df['Effort']

X_test = df2[['AFP','Development_platform','Language_Type','Resource_Level']]
Y_test = df2['Effort']

std = StandardScaler()
afp = np.append(X_train['AFP'].values, X_test['AFP'].values)
std.fit(afp)

X_train[['AFP']] = std.transform(X_train['AFP'])
X_test[['AFP']] = std.transform(X_test['AFP'])

X_train = feature_engineering(X_train)
X_test = feature_engineering(X_test)

lr = RandomForestRegressor(n_estimators=50)
lr.fit(X_train, Y_train)

print("Training set score: {:.2f}".format(lr.score(X_train, Y_train)))
print("Test set score: {:.2f}".format(lr.score(X_test, Y_test)))

fig = plt.figure()
ax = fig.add_subplot(111)

ax.errorbar(Y_test, y_pred, fmt='o')
ax.errorbar([1, Y_test.max()], [1, Y_test.max()])

Ergibt:

Training set score: 0.90
Test set score: 0.61

Wie erhöhe ich die Richtigkeit meiner Linearen Regressionsmodell?(maschinelles lernen mit python)

Kann man sich die Bedeutung der Variablen (je höher der Wert, desto wichtiger).

Importance
AFP                         0.882295
dev_plat_077070             0.020817
dev_plat_077082             0.001162
dev_plat_077117108116105    0.016334
dev_plat_080067             0.004077
lang_type_051071076         0.012458
lang_type_052071076         0.021195
lang_type_065112071         0.001118
resource_level_1            0.012644
resource_level_2            0.006673
resource_level_4            0.021227

Könnten Sie beginnen, die hyperparameters um Verbesserungen auf diesem auch: http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html#sklearn.model_selection.GridSearchCV

Es hat mir sehr geholfen,vielen Dank
Können Sie mir helfen bei dieser Frage? stackoverflow.com/questions/47800688/...
eine Frage bezüglich der Skalierung afp = np.append(X_train['AFP'].values, X_test['AFP'].values) den scaler sieht sowohl für Zug-und test-Daten. Sollte es nicht nur auf die X_train?

InformationsquelleAutor jonnybazookatone

2

hier sind einige Tipps :

Aufbereitung der Daten(exploration) ist einer der wichtigsten Schritte in einem machine-learning-Projekt, die Sie brauchen, damit zu beginnen.

hast du sauber deine Daten? wenn nicht, beginnen Sie mit Schritt!

Wie gesagt in dieses tutorial :

Gibt es keine shortcuts für das durchsuchen von Daten. Wenn Sie in einem Zustand der
daran, dass machine learning-Segeln können Sie sich von jedem Sturm,
Vertrauen Sie mir, es wird nicht.Nach einem gewissen Punkt der Zeit, Sie feststellen, dass Sie
kämpfen Sie an der Verbesserung der Modell-Genauigkeit. In einer solchen situation, Daten
exploration Techniken wird zu Ihrer Rettung kommen.

hier ist eine Schritt für data exploration :
- fehlenden Werten Behandlung,
- Ausreißer entfernen
- feature engineering
- Danach versuchen zu führen univariate und bivariate Analyse mit Ihren Eigenschaften.
- verwenden ein hot Kodierung, verwandeln Sie kategoriale Merkmale in die Numerik lieben.
dies ist, was Sie brauchen nach, worüber wir gesprochen haben in den Kommentaren.

hier ist ein tutorial zum Umgang mit kategorialen Variablen, one-hot-Codierung von sklearn lernen, ist die beste Technik für Ihr problem.

Mithilfe von ASCII-Darstellung ist nicht die beste Praxis für den Umgang kategorische Merkmale

Finden Sie weitere Informationen zur Daten-exploration in hier
befolgen Sie die Vorschläge, die ich Euch schenkte und mir später danken.
- Habe ich entfernt, fehlende Werte und transformieren ich nicht-numerische Werte in numerische Werte also, was kann ich tun, excpet diese?
- Ich lösche die Zeilen, die null-Werte enthalten
- und zu transformieren, nicht-numerische Werte in numerische lieben?
- Ja, ich nehme Ihre ASCII-Werte-und auch ich gab Ihnen numerische Werte auf beide Möglichkeiten Ergebnis ist das gleiche
- das ist einer Ihrer ersten problem, wie schlagen in meiner Antwort versuchen, führen Sie eine hot-Kodierung
- check meinen Bearbeitungen auf die Frage
InformationsquelleAutor Espoir Murhabazi
0
1. normalisieren Sie Ihre Daten
2. Je nach Art der Eingabe-features, die Sie extrahieren können verschiedene Funktionen von Ihnen (feature-Kombinationen sind auch möglich)
3. Wenn Ihre Daten nicht Linear trennbar, Sie werden nicht in der Lage, vorherzusagen, ist es gut. Möglicherweise müssen Sie verwenden ein anderes Modell, Logistische regression, SVR, NN /was auch immer
- Was meinst du mit Linear trennbar ? Nicht, sprechen wir von regression?
InformationsquelleAutor Georgi Karadzhov

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.