Gradientenabstieg mit Python und Numpy

def gradient(X_norm,y,theta,alpha,m,n,num_it):
    temp=np.array(np.zeros_like(theta,float))
    for i in range(0,num_it):
        h=np.dot(X_norm,theta)
        #temp[j]=theta[j]-(alpha/m)*(  np.sum( (h-y)*X_norm[:,j][np.newaxis,:] )  )
        temp[0]=theta[0]-(alpha/m)*(np.sum(h-y))
        temp[1]=theta[1]-(alpha/m)*(np.sum((h-y)*X_norm[:,1]))
        theta=temp
    return theta



X_norm,mean,std=featureScale(X)
#length of X (number of rows)
m=len(X)
X_norm=np.array([np.ones(m),X_norm])
n,m=np.shape(X_norm)
num_it=1500
alpha=0.01
theta=np.zeros(n,float)[:,np.newaxis]
X_norm=X_norm.transpose()
theta=gradient(X_norm,y,theta,alpha,m,n,num_it)
print theta

Mein theta aus dem obigen code ist 100.2 100.2 sollte, aber es 100.2 61.09 in matlab korrekt ist.

InformationsquelleAutor der Frage Madan Ram | 2013-07-22

111

Ich denke, dein code ist etwas zu kompliziert und es braucht mehr Struktur, weil sonst wirst du verloren sein in alle Gleichungen und Operationen. Am Ende dieser regression reduziert sich auf vier Operationen:
1. Berechnen Sie die Hypothese h = X * theta
2. Berechnung der Verlust - = h - y und vielleicht auch das Quadrat der Kosten (- Verlust^2)/2m
3. Berechnen Sie den Gradienten = X' * Verlust /m
4. Update der Parameter theta = theta - alpha * Steigung
In Ihrem Fall, ich denke, Sie verwechselt haben m mit n. Hier m bezeichnet die Anzahl der Beispiele in Ihrer Ausbildung setzen, nicht die Anzahl der features.

Let ' s haben einen Blick auf meine Variante von code:
```
import numpy as np
import random

# m denotes the number of examples here, not the number of features
def gradientDescent(x, y, theta, alpha, m, numIterations):
    xTrans = x.transpose()
    for i in range(0, numIterations):
        hypothesis = np.dot(x, theta)
        loss = hypothesis - y
        # avg cost per example (the 2 in 2*m doesn't really matter here.
        # But to be consistent with the gradient, I include it)
        cost = np.sum(loss ** 2) / (2 * m)
        print("Iteration %d | Cost: %f" % (i, cost))
        # avg gradient per example
        gradient = np.dot(xTrans, loss) / m
        # update
        theta = theta - alpha * gradient
    return theta


def genData(numPoints, bias, variance):
    x = np.zeros(shape=(numPoints, 2))
    y = np.zeros(shape=numPoints)
    # basically a straight line
    for i in range(0, numPoints):
        # bias feature
        x[i][0] = 1
        x[i][1] = i
        # our target variable
        y[i] = (i + bias) + random.uniform(0, 1) * variance
    return x, y

# gen 100 points with a bias of 25 and 10 variance as a bit of noise
x, y = genData(100, 25, 10)
m, n = np.shape(x)
numIterations= 100000
alpha = 0.0005
theta = np.ones(n)
theta = gradientDescent(x, y, theta, alpha, m, numIterations)
print(theta)
```
Zuerst erstelle ich eine kleine random dataset, das sollte dann so Aussehen:

Wie Sie sehen können ich habe auch die erzeugte Regressionsgerade und die Formel wurde berechnet durch excel.

Sie benötigen zu kümmern über, die intuition der regression mit Gradienten-Abstieg. Wie Sie eine vollständige batch-Durchlauf über Ihre Daten X, müssen Sie zur Verringerung der m-Verlusten jedes Beispiel auf eine einzelne Gewicht-update. In diesem Fall ist der Mittelwert der Summe über die Verläufe, so ist die division durch m.

Die nächste Sache, die Sie benötigen zu kümmern über, verfolgen die Annäherung und Anpassung der Lern-rate. Für diese Angelegenheit sollten Sie immer verfolgen Sie Ihre Kosten jeder iteration, vielleicht sogar zeichnen Sie es.

Wenn du mein Beispiel, das theta zurückgegeben wird wie folgt Aussehen:
```
Iteration 99997 | Cost: 47883.706462
Iteration 99998 | Cost: 47883.706462
Iteration 99999 | Cost: 47883.706462
[ 29.25567368   1.01108458]
```
Ist eigentlich ganz in der Nähe der Gleichung berechnet wurde, die von excel (y = x + 30). Beachten Sie, dass während wir an der Voreingenommenheit in der ersten Spalte, der ersten theta-Wert bezeichnet die Neigung Gewicht.

InformationsquelleAutor der Antwort Thomas Jungblut

Unten finden Sie meine Implementierung der Gradienten-Abstieg für die lineare regression problem.

Zuerst berechnet man Gradienten wie X.T * (X * w - y) /N und aktualisieren Sie Ihre aktuelle theta mit diesem Farbverlauf gleichzeitig.

X: feature-matrix
y: Zielwerte
w: GEWICHTE/Werte
N: Größe der trainingsmenge

Hier ist der python-code:

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import random

def generateSample(N, variance=100):
    X = np.matrix(range(N)).T + 1
    Y = np.matrix([random.random() * variance + i * 10 + 900 for i in range(len(X))]).T
    return X, Y

def fitModel_gradient(x, y):
    N = len(x)
    w = np.zeros((x.shape[1], 1))
    eta = 0.0001

    maxIteration = 100000
    for i in range(maxIteration):
        error = x * w - y
        gradient = x.T * error / N
        w = w - eta * gradient
    return w

def plotModel(x, y, w):
    plt.plot(x[:,1], y, "x")
    plt.plot(x[:,1], x * w, "r-")
    plt.show()

def test(N, variance, modelFunction):
    X, Y = generateSample(N, variance)
    X = np.hstack([np.matrix(np.ones(len(X))).T, X])
    w = modelFunction(X, Y)
    plotModel(X, Y, w)


test(50, 600, fitModel_gradient)
test(50, 1000, fitModel_gradient)
test(100, 200, fitModel_gradient)

Gradientenabstieg mit Python und Numpy

InformationsquelleAutor der Antwort Muatik

Ich weiß, diese Frage bereits beantworten, aber ich habe einige update der GD-Funktion :

  ### COST FUNCTION

def cost(theta,X,y):
     ### Evaluate half MSE (Mean square error)
     m = len(y)
     error = np.dot(X,theta) - y
     J = np.sum(error ** 2)/(2*m)
     return J

 cost(theta,X,y)



def GD(X,y,theta,alpha):

    cost_histo = [0]
    theta_histo = [0]

    # an arbitrary gradient, to pass the initial while() check
    delta = [np.repeat(1,len(X))]
    # Initial theta
    old_cost = cost(theta,X,y)

    while (np.max(np.abs(delta)) > 1e-6):
        error = np.dot(X,theta) - y
        delta = np.dot(np.transpose(X),error)/len(y)
        trial_theta = theta - alpha * delta
        trial_cost = cost(trial_theta,X,y)
        while (trial_cost >= old_cost):
            trial_theta = (theta +trial_theta)/2
            trial_cost = cost(trial_theta,X,y)
            cost_histo = cost_histo + trial_cost
            theta_histo = theta_histo +  trial_theta
        old_cost = trial_cost
        theta = trial_theta
    Intercept = theta[0] 
    Slope = theta[1]  
    return [Intercept,Slope]

res = GD(X,y,theta,alpha)

Dieser Funktion reduzieren Sie die alpha über die iteration macht die Funktion zu konvergieren schneller sehen Die Schätzung der linearen regression mit Gradient Descent (Steilster Abstieg) für ein Beispiel in der R., die ich gelten die gleiche Logik, aber in Python.

InformationsquelleAutor der Antwort Nico Coallier

Folgende @thomas-jungblut-Implementierung in python, ich Tat das gleiche für die Oktave. Wenn Sie feststellen, etwas falsch ist bitte lassen Sie mich wissen, und ich werde fix+update.

Daten kommen aus einer txt-Datei mit den folgenden Zeilen:

denken als ein sehr grobes Beispiel für Funktionen [Anzahl der Zimmer] [mts2] und die Letzte Spalte [Preis] - das ist das, was wir Vorhersagen möchten.

Hier ist die Oktave Umsetzung:

%
% Linear Regression with multiple variables
%

% Alpha for learning curve
alphaNum = 0.0005;

% Number of features
n = 2;

% Number of iterations for Gradient Descent algorithm
iterations = 10000

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
% No need to update after here
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

DATA = load('CHANGE_WITH_DATA_FILE_PATH');

% Initial theta values
theta = ones(n + 1, 1);

% Number of training samples
m = length(DATA(:, 1));

% X with one mor column (x0 filled with '1's)
X = ones(m, 1);
for i = 1:n
  X = [X, DATA(:,i)];
endfor

% Expected data must go always in the last column  
y = DATA(:, n + 1)

function gradientDescent(x, y, theta, alphaNum, iterations)
  iterations = [];
  costs = [];

  m = length(y);

  for iteration = 1:10000
    hypothesis = x * theta;

    loss = hypothesis - y;

    % J(theta)    
    cost = sum(loss.^2) / (2 * m);

    % Save for the graphic to see if the algorithm did work
    iterations = [iterations, iteration];
    costs = [costs, cost];

    gradient = (x' * loss) /m; % /m is for the average

    theta = theta - (alphaNum * gradient);
  endfor    

  % Show final theta values
  display(theta)

  % Show J(theta) graphic evolution to check it worked, tendency must be zero
  plot(iterations, costs);

endfunction

% Execute gradient descent
gradientDescent(X, y, theta, alphaNum, iterations);

InformationsquelleAutor der Antwort Fernando Gabrieli

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.