Wie erhöhe ich die Richtigkeit meiner Linearen Regressionsmodell?(maschinelles lernen mit python)

Ich habe eine machine-learning-Projekt mit python mithilfe von scikit-learn Bibliothek. Ich habe zwei getrennte Datensätze für die Ausbildung und Prüfung, und ich versuche zu tun, die lineare regression. Ich verwenden Sie diesen codeblock unten gezeigt:

import numpy as np
import pandas as pd
import scipy
import matplotlib.pyplot as plt
from pylab import rcParams
import urllib
import sklearn
from sklearn.linear_model import LinearRegression
df =pd.read_csv("TrainingData.csv")
df2=pd.read_csv("TestingData.csv")

df['Development_platform']= ["".join("%03d" % ord(c) for c in s) for s in df['Development_platform']]
df['Language_Type']= ["".join("%03d" % ord(c) for c in s) for s in df['Language_Type']]


df2['Development_platform']= ["".join("%03d" % ord(c) for c in s) for s in df2['Development_platform']]
df2['Language_Type']= ["".join("%03d" % ord(c) for c in s) for s in df2['Language_Type']]

X_train = df[['AFP','Development_platform','Language_Type','Resource_Level']]
Y_train = df['Effort']

X_test=df2[['AFP','Development_platform','Language_Type','Resource_Level']]
Y_test=df2['Effort']
lr = LinearRegression().fit(X_train, Y_train)
print("lr.coef_: {}".format(lr.coef_))
print("lr.intercept_: {}".format(lr.intercept_))
print("Training set score: {:.2f}".format(lr.score(X_train, Y_train)))
print("Test set score: {:.7f}".format(lr.score(X_test, Y_test)))

Meine Ergebnisse sind:
lr.coef_: [ 2.32088001 e+00 2.07441948 e-12 -4.73338567 e-05 6.79658129 e+02]

lr.intercept_: 2166.186033098048

Trainings-set Punktzahl: 0.63

Test-set Punktzahl: 0.5732999

Was empfehlen Sie mir? Wie kann ich meine Genauigkeit erhöhen? (hinzufügen von code,parameter etc.)
Meine Datensätze ist hier: https://yadi.sk/d/JJmhzfj-3QCV4V

  • Verwenden Regularisierung. Davon abgesehen: es ist zu breit und hängt immer von den Daten, was nicht gegeben ist!
  • Wenn Sie die csv-Dateien die Menschen geben könnte, konkrete Verbesserungen.
  • Ich fügte hinzu, datasets
InformationsquelleAutor f.koglu | 2017-11-30
Schreibe einen Kommentar