Tag: gradient-descent

Gradient-Descent-Algorithmus für die Suche nach dem minimum einer Funktion. Es iterativ berechnet die partiellen Ableitungen (Gradienten) der Funktion und steigt in Schritten proportional zu diesen partiellen Ableitungen. Eine bedeutende Anwendung des Gradient-Descent-Einbau eines parametrisierten Modells zu einer Reihe von Daten: die Funktion, die minimiert werden können, ist eine Fehler Funktion für das Modell.

Ist meine Umsetzung der stochastic gradient descent korrekt?

Anzahl der Antworten 3 Antworten
Ich versuche mich zu entwickeln stochastic gradient descent, aber ich weiß nicht, ob es 100% korrekt ist. Die Kosten erzeugt, die durch meine stochastic gradient descent Algorithmus ist manchmal sehr weit von dem durch Sie erzeugten FMINUC

Gradient Abstieg in Java

Anzahl der Antworten 3 Antworten
Ich habe vor kurzem begonnen die KI-Klasse an Coursera und ich habe eine Frage in Bezug auf meine Anwendung des gradient-descent-Algorithmus. Hier ist meine aktuelle Umsetzung (die ich eigentlich nur "übersetzt" werden die mathematischen Ausdrücke in Java-code):

Vektorisierung eines Gradienten-Abstiegs-code

Anzahl der Antworten 2 Antworten
Ich bin die Implementierung eines batch gradient descent auf Matlab. Ich habe ein problem mit dem update-Schritt des theta. theta ist ein Vektor mit zwei Komponenten (zwei Zeilen). X ist eine matrix mit m Zeilen (Anzahl der

Wie implementieren von mini-batch gradient descent in python?

Anzahl der Antworten 2 Antworten
Ich habe gerade angefangen zu lernen, tiefes lernen. Fand ich mich stecken, wenn es darum ging, Gradienten-Abstieg. Ich weiß, wie das umzusetzen, batch gradient descent. Ich weiß, wie es funktioniert so gut, wie die mini-batch-und stochastic gradient

Pytorch, was sind die Argumente Farbverlauf

Anzahl der Antworten 3 Antworten
Ich bin beim Lesen durch die Dokumentation von PyTorch und fand ein Beispiel, wo Sie schreiben, gradients = torch.FloatTensor([0.1, 1.0, 0.0001]) y.backward(gradients) print(x.grad) wo x war, einen ersten Variablen, von denen y konstruiert wurde (ein 3-Vektor). Die

Gradient Abstieg mit Nebenbedingungen (lagrange-Multiplikatoren)

Anzahl der Antworten 2 Antworten
Ich versuche zu finden, die min von einer Funktion in N-Parameter mit Gradienten-Abstieg. Allerdings möchte ich tun, während die Begrenzung der Summe der absoluten Werte der Parameter 1 (oder <= 1, ist egal). Aus diesem Grund bin

Was ist `lr_policy` im Caffe?

Anzahl der Antworten 2 Antworten
Ich versuche nur, um herauszufinden, wie ich verwenden können,Caffe. So zu tun, ich habe nur einen Blick auf die verschiedenen .prototxt Dateien im Ordner Beispiele. Es ist eine option, die ich nicht verstehe: # The learning rate

Implementierung von Backpropagation mit numpy und python für cleveland dataset

Anzahl der Antworten 1 Antworten
Wollte ich voraussagen, Herz-Krankheit, die mit backpropagation-Algorithmus für neuronale Netze. Dafür habe ich UCI heart disease data set hier verlinkt: verarbeitet cleveland. Um dies zu tun, habe ich das cde finden Sie auf den folgenden blog: Bauen

Logistische Regression mit Gradienten-Abstieg mit OKTAVE

Anzahl der Antworten 1 Antworten
Ich durchgemacht habe einige Kurse von Professor Andrew für maschinelles Lernen und betrachtete das Transkript für die Logistische Regression mit Newtons Methode. Jedoch bei der Umsetzung der logistischen regression mit Gradienten-Abstieg muss ich mit bestimmten Thema. Dem

Wie berechnen Sie die optimale Losgröße

Anzahl der Antworten 4 Antworten
Manchmal Laufe ich in ein problem: OOM bei der Zuteilung von tensor mit Form e.q. OOM bei der Zuteilung von tensor mit Form (1024, 100, 160) Wo 1024 ist meine batch-Größe, und ich weiß nicht, was ist

Häufige Ursachen von nans während der Ausbildung

Anzahl der Antworten 4 Antworten
Habe ich bemerkt, dass ein häufiges auftreten während der Ausbildung NANs eingeführt. Oft scheint es eingeführt werden durch GEWICHTE im inneren-Produkt - /voll-angeschlossen oder convolution-Schichten Sprengung. Ist, dass dies geschieht, weil die Gradienten-Berechnung ist die Sprengung? Oder

Multi variable Gradienten-Abstieg in matlab

Anzahl der Antworten 1 Antworten
Ich mache Gradienten-Abstieg in matlab für mehrere Variablen, und der code ist nicht immer die erwarteten thetas ich habe mit dem normalen eq. das sind: theta = 1.0 e+05 * 3.4041 1.1063 -0.0665 Mit dem Normalen eq.

Was ist der Unterschied zwischen SGD und back-propagation?

Anzahl der Antworten 3 Antworten
Können Sie mir bitte sagen, der Unterschied zwischen Stochastic Gradient Descent (SGD) und back-propagation? InformationsquelleAutor | 2016-06-21

Gradient Abstieg und normalen Gleichung-Methode zur Lösung linearer regression gibt verschiedene Lösungen

Anzahl der Antworten 4 Antworten
Arbeite ich auf machine-learning-problem und wollen die lineare regression als Lern-Algorithmus. Ich habe Erfahrung in 2 verschiedene Methoden um Parameter theta der linearen regression: Steigung (steilsten) Abstiegs-und Normalen Gleichung. Auf die gleichen Daten sollten Sie beide geben

Vektorisieren von einem gradient-descent-Algorithmus

Anzahl der Antworten 4 Antworten
Ich bin kodierenden Gradienten-Abstieg in matlab. Für zwei Besonderheiten, die ich für den update-Schritt: temp0 = theta(1,1) - (alpha/m)*sum((X*theta-y).*X(:,1)); temp1 = theta(2,1) - (alpha/m)*sum((X*theta-y).*X(:,2)); theta(1,1) = temp0; theta(2,1) = temp1; Allerdings möchte ich zu Vektorisieren diesem code

gradient Abstieg scheint zu scheitern

Anzahl der Antworten 8 Antworten
Implementiert habe ich eine gradient-descent-Algorithmus zur Minimierung einer cost-Funktion, um eine Hypothese für die Bestimmung, ob ein Bild hat eine gute Qualität. Ich hab das in die Oktave. Die Idee ist irgendwie basierend auf dem Algorithmus von

Neural network immer prophezeit der gleichen Klasse

Anzahl der Antworten 2 Antworten
Ich versuche, die Implementierung eines neuronalen Netzwerks, das Stuft die Bilder in einer der zwei diskreten Kategorien. Das problem ist jedoch, dass es derzeit immer prophezeit 0 für jeden input und ich bin mir nicht wirklich sicher,

Sklearn SGDC-Klassifizierer teilweise fit

Anzahl der Antworten 1 Antworten
Ich versuche, SGD zu klassifizieren, die einen großen Datenbestand. Da die Daten zu groß, um fit in den Speicher, ich möchte die partial_fit Methode zum trainieren der Klassifizierer. Ich habe eine Stichprobe des Datensatzes (über 100.000 Zeilen),

Warum sollten Gewichte neuronaler Netzwerke mit Zufallszahlen initialisiert werden?

Anzahl der Antworten 3 Antworten
Ich versuche, bauen ein neuronales Netzwerk von Grund auf. Über alle AI Literatur gibt es einen Konsens darüber, dass die GEWICHTE sollten initialisiert werden, um Zufallszahlen, um für das Netzwerk zu konvergieren schneller. Aber warum sind neuronale

Was ist `lr_policy` in Caffe?

Anzahl der Antworten 2 Antworten
Ich versuche nur, um herauszufinden, wie ich verwenden können,Caffe. So zu tun, ich habe nur einen Blick auf die verschiedenen .prototxt Dateien im Ordner Beispiele. Es ist eine option, die ich nicht verstehe: # The learning rate

Was ist der Meta Parameter "weight_decay" in Caffe?

Anzahl der Antworten 2 Antworten
Blick auf ein Beispiel 'solver.prototxt'geschrieben am BVLC/caffe git, es ist ein training meta-parameter weight_decay: 0.04 Was bedeutet dieser meta-parameter bedeuten? Und welchen Wert soll ich zuweisen? InformationsquelleAutor der Frage Shai | 2015-08-24

Warum Gradientenabstieg, wenn wir lineare Regression analytisch lösen können

Anzahl der Antworten 4 Antworten
was ist der Vorteil der Verwendung von Gradienten-Abstieg in die lineare regression Raum? sieht aus wie wir das problem lösen können (Suche nach theta0-n, die mindestens die Kosten func) mit der analytischen Methode also, warum wir immer

Gradientenabstieg mit Python und Numpy

Anzahl der Antworten 4 Antworten
def gradient(X_norm,y,theta,alpha,m,n,num_it): temp=np.array(np.zeros_like(theta,float)) for i in range(0,num_it): h=np.dot(X_norm,theta) #temp[j]=theta[j]-(alpha/m)*( np.sum( (h-y)*X_norm[:,j][np.newaxis,:] ) ) temp[0]=theta[0]-(alpha/m)*(np.sum(h-y)) temp[1]=theta[1]-(alpha/m)*(np.sum((h-y)*X_norm[:,1])) theta=temp return theta X_norm,mean,std=featureScale(X) #length of X (number of rows) m=len(X) X_norm=np.array([np.ones(m),X_norm]) n,m=np.shape(X_norm) num_it=1500 alpha=0.01 theta=np.zeros(n,float)[:,np.newaxis] X_norm=X_norm.transpose() theta=gradient(X_norm,y,theta,alpha,m,n,num_it) print theta Mein theta