Tag: gradient-descent
Gradient-Descent-Algorithmus für die Suche nach dem minimum einer Funktion. Es iterativ berechnet die partiellen Ableitungen (Gradienten) der Funktion und steigt in Schritten proportional zu diesen partiellen Ableitungen. Eine bedeutende Anwendung des Gradient-Descent-Einbau eines parametrisierten Modells zu einer Reihe von Daten: die Funktion, die minimiert werden können, ist eine Fehler Funktion für das Modell.
3
Antworten
Ich versuche mich zu entwickeln stochastic gradient descent, aber ich weiß nicht, ob es 100% korrekt ist. Die Kosten erzeugt, die durch meine stochastic gradient descent Algorithmus ist manchmal sehr weit von dem durch Sie erzeugten FMINUC
3
Antworten
Ich habe vor kurzem begonnen die KI-Klasse an Coursera und ich habe eine Frage in Bezug auf meine Anwendung des gradient-descent-Algorithmus. Hier ist meine aktuelle Umsetzung (die ich eigentlich nur "übersetzt" werden die mathematischen Ausdrücke in Java-code):
2
Antworten
Ich bin die Implementierung eines batch gradient descent auf Matlab. Ich habe ein problem mit dem update-Schritt des theta. theta ist ein Vektor mit zwei Komponenten (zwei Zeilen). X ist eine matrix mit m Zeilen (Anzahl der
2
Antworten
Ich habe gerade angefangen zu lernen, tiefes lernen. Fand ich mich stecken, wenn es darum ging, Gradienten-Abstieg. Ich weiß, wie das umzusetzen, batch gradient descent. Ich weiß, wie es funktioniert so gut, wie die mini-batch-und stochastic gradient
3
Antworten
Ich bin beim Lesen durch die Dokumentation von PyTorch und fand ein Beispiel, wo Sie schreiben, gradients = torch.FloatTensor([0.1, 1.0, 0.0001]) y.backward(gradients) print(x.grad) wo x war, einen ersten Variablen, von denen y konstruiert wurde (ein 3-Vektor). Die
2
Antworten
Ich versuche zu finden, die min von einer Funktion in N-Parameter mit Gradienten-Abstieg. Allerdings möchte ich tun, während die Begrenzung der Summe der absoluten Werte der Parameter 1 (oder <= 1, ist egal). Aus diesem Grund bin
2
Antworten
Ich versuche nur, um herauszufinden, wie ich verwenden können,Caffe. So zu tun, ich habe nur einen Blick auf die verschiedenen .prototxt Dateien im Ordner Beispiele. Es ist eine option, die ich nicht verstehe: # The learning rate
1
Antworten
Wollte ich voraussagen, Herz-Krankheit, die mit backpropagation-Algorithmus für neuronale Netze. Dafür habe ich UCI heart disease data set hier verlinkt: verarbeitet cleveland. Um dies zu tun, habe ich das cde finden Sie auf den folgenden blog: Bauen
1
Antworten
Ich durchgemacht habe einige Kurse von Professor Andrew für maschinelles Lernen und betrachtete das Transkript für die Logistische Regression mit Newtons Methode. Jedoch bei der Umsetzung der logistischen regression mit Gradienten-Abstieg muss ich mit bestimmten Thema. Dem
4
Antworten
Manchmal Laufe ich in ein problem: OOM bei der Zuteilung von tensor mit Form e.q. OOM bei der Zuteilung von tensor mit Form (1024, 100, 160) Wo 1024 ist meine batch-Größe, und ich weiß nicht, was ist
4
Antworten
Habe ich bemerkt, dass ein häufiges auftreten während der Ausbildung NANs eingeführt. Oft scheint es eingeführt werden durch GEWICHTE im inneren-Produkt - /voll-angeschlossen oder convolution-Schichten Sprengung. Ist, dass dies geschieht, weil die Gradienten-Berechnung ist die Sprengung? Oder
1
Antworten
Ich mache Gradienten-Abstieg in matlab für mehrere Variablen, und der code ist nicht immer die erwarteten thetas ich habe mit dem normalen eq. das sind: theta = 1.0 e+05 * 3.4041 1.1063 -0.0665 Mit dem Normalen eq.
3
Antworten
Können Sie mir bitte sagen, der Unterschied zwischen Stochastic Gradient Descent (SGD) und back-propagation? InformationsquelleAutor | 2016-06-21
4
Antworten
Arbeite ich auf machine-learning-problem und wollen die lineare regression als Lern-Algorithmus. Ich habe Erfahrung in 2 verschiedene Methoden um Parameter theta der linearen regression: Steigung (steilsten) Abstiegs-und Normalen Gleichung. Auf die gleichen Daten sollten Sie beide geben
4
Antworten
Ich bin kodierenden Gradienten-Abstieg in matlab. Für zwei Besonderheiten, die ich für den update-Schritt: temp0 = theta(1,1) - (alpha/m)*sum((X*theta-y).*X(:,1)); temp1 = theta(2,1) - (alpha/m)*sum((X*theta-y).*X(:,2)); theta(1,1) = temp0; theta(2,1) = temp1; Allerdings möchte ich zu Vektorisieren diesem code
8
Antworten
Implementiert habe ich eine gradient-descent-Algorithmus zur Minimierung einer cost-Funktion, um eine Hypothese für die Bestimmung, ob ein Bild hat eine gute Qualität. Ich hab das in die Oktave. Die Idee ist irgendwie basierend auf dem Algorithmus von
2
Antworten
Ich versuche, die Implementierung eines neuronalen Netzwerks, das Stuft die Bilder in einer der zwei diskreten Kategorien. Das problem ist jedoch, dass es derzeit immer prophezeit 0 für jeden input und ich bin mir nicht wirklich sicher,
1
Antworten
Ich versuche, SGD zu klassifizieren, die einen großen Datenbestand. Da die Daten zu groß, um fit in den Speicher, ich möchte die partial_fit Methode zum trainieren der Klassifizierer. Ich habe eine Stichprobe des Datensatzes (über 100.000 Zeilen),
3
Antworten
Ich versuche, bauen ein neuronales Netzwerk von Grund auf. Über alle AI Literatur gibt es einen Konsens darüber, dass die GEWICHTE sollten initialisiert werden, um Zufallszahlen, um für das Netzwerk zu konvergieren schneller. Aber warum sind neuronale
2
Antworten
Ich versuche nur, um herauszufinden, wie ich verwenden können,Caffe. So zu tun, ich habe nur einen Blick auf die verschiedenen .prototxt Dateien im Ordner Beispiele. Es ist eine option, die ich nicht verstehe: # The learning rate
2
Antworten
Blick auf ein Beispiel 'solver.prototxt'geschrieben am BVLC/caffe git, es ist ein training meta-parameter weight_decay: 0.04 Was bedeutet dieser meta-parameter bedeuten? Und welchen Wert soll ich zuweisen? InformationsquelleAutor der Frage Shai | 2015-08-24
4
Antworten
was ist der Vorteil der Verwendung von Gradienten-Abstieg in die lineare regression Raum? sieht aus wie wir das problem lösen können (Suche nach theta0-n, die mindestens die Kosten func) mit der analytischen Methode also, warum wir immer
4
Antworten
def gradient(X_norm,y,theta,alpha,m,n,num_it): temp=np.array(np.zeros_like(theta,float)) for i in range(0,num_it): h=np.dot(X_norm,theta) #temp[j]=theta[j]-(alpha/m)*( np.sum( (h-y)*X_norm[:,j][np.newaxis,:] ) ) temp[0]=theta[0]-(alpha/m)*(np.sum(h-y)) temp[1]=theta[1]-(alpha/m)*(np.sum((h-y)*X_norm[:,1])) theta=temp return theta X_norm,mean,std=featureScale(X) #length of X (number of rows) m=len(X) X_norm=np.array([np.ones(m),X_norm]) n,m=np.shape(X_norm) num_it=1500 alpha=0.01 theta=np.zeros(n,float)[:,np.newaxis] X_norm=X_norm.transpose() theta=gradient(X_norm,y,theta,alpha,m,n,num_it) print theta Mein theta