Tag: data-mining
Data mining ist der Prozess der Analyse großer Datenmengen, um Muster zu finden und Gemeinsamkeiten.
2
Antworten
Viele algorithmen für das clustering verfügbar sind. Ein beliebter Algorithmus ist der K-means-wo, basierend auf einer bestimmten Anzahl der Cluster, die der Algorithmus iteriert um die besten zu finden von Clustern für die Objekte. Welche Methode sollten
4
Antworten
Ich bin mit DBSCAN-cluster-einige Daten mithilfe von Scikit-Learn (Python 2.7): from sklearn.cluster import DBSCAN dbscan = DBSCAN(random_state=0) dbscan.fit(X) Allerdings fand ich, dass es keine built-in Funktion (abgesehen von "fit_predict") könnten ordnen Sie die neuen Daten Punkte, Y,
3
Antworten
Ich Frage mich, ob es einen Weg gibt, um das Modell zu trainieren mit Naive Bayes, und wenden Sie dann, dass zu einem einzigen Datensatz. Ich bin neu bei weka also ich weiß nicht, ob dies möglich
3
Antworten
Bin ich mit einer apiori Algorithmus Implementierung generieren association rules aus einer Transaktion gesetzt und ich erhalte die folgende Zuordnungsregeln. aber ich bekomme eine association rules 1->8 kann ich davon ausgehen 8->1 weil finden Sie in der
2
Antworten
Arbeite ich an einem java-Projekt zur Optimierung von vorhandenen code. Derzeit bin ich mit BufferedReader/FileInputStream zum Lesen von Inhalten aus einer XML-Datei als String in Java. Aber meine Frage ist , gibt es eine schnellere Möglichkeit zum
3
Antworten
Ich war im Gespräch mit einem Kollegen gestern über eine situation, wo er verwendet, SSIS (oder so ähnlich) zu tun, einige wirklich Coole Sache, mit ein SSIS-Paket, wo er an einen Namen wie "Dr. Reginald Williams, PhD."
4
Antworten
Kann mir jemand helfen bei der Berechnung F-measure gemeinsam ? Ich weiß wie berechnen Sie recall und precision, aber nicht wissen, für einen bestimmten Algorithmus wie berechnet man F-measure-Wert. Als Beispiel, angenommen mein Algorithmus erstellt m Clustern,
2
Antworten
Vor kurzem Las ich über ein neues Google-code gehostet (open source -) Projekt von Google ermöglicht Ihnen die Durchführung von data mining und analytics auf verschiedenen input-Dateien. Es gab sogar ein video, in dem der Benutzer das
1
Antworten
Ich brauche zu finden, natürlich vorkommende Klassen der Substantive basiert auf deren Verteilung mit verschiedener Präposition (wie agentive, instrumental, Ort, Zeit usw.). Ich habe versucht mit k-means-clustering, aber weniger helfen, es hat nicht funktioniert gut, es wurde
2
Antworten
Fand ich folgenden code im internet für die Berechnung der TFIDF: https://github.com/timtrueman/tf-idf/blob/master/tf-idf.py Fügte ich hinzu "1+" in der Funktion def idf(word, documentList), damit ich nicht bekommen, geteilt durch 0 Fehler: return math.log(len(documentList) / (1 + float(numDocsContaining(word,documentList)))) Aber
14
Antworten
Sagen wir mal ich aufgetragen, der die position des Hubschraubers jeden Tag für das vergangene Jahr und kam mit der folgenden Karte: Jedem menschlichen Blick auf diese in der Lage wäre, mir zu sagen, dass dieser Hubschrauber
2
Antworten
Verwende ich SCHLUG filter in WEKA balance-Daten. Ich habe Zweifel über die zwei Parameter nearestNeighbors und percentage. nearestNeighbors -- Die Anzahl der nächsten Nachbarn zu verwenden. Prozentsatz -- der Anteil Der SCHLUG Instanzen zu erstellen. Wie sollte
1
Antworten
Ich bin vor JDBC-Verbindung problem beim verbinden MySQL-DB mit Hilfe von WEKA. Hier mein DatabaseUtils.Eigenschaften Datei: jdbcDriver=com.mysql.jdbc.Driver jdbcURL=jdbc:mysql://localhost:3306/mydb Und ich fügte hinzu, jdbc-mysql-jar in den Pfad: /opt/SenchaSDKTools-2.0.0-beta3:/usr/lib/lightdm/lightdm:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/home/talha/apache-maven-3.0.4/bin:/home/talha/mysql-connector-java-5.1.20.jar:/opt/SenchaSDKTools-2.0.0-beta3:/home/talha/apache-maven-3.0.4/bin:/usr/lib/jvm/jdk1.7.0_05/bin:/home/talha/apache-maven-3.0.4/bin Java-Klasse [Eine einfache test-Klasse] public class Test { public static
3
Antworten
Im Allgemeinen, und insbesondere für Bernoulli mixture Modell (aka Latent-Class-Analyse). InformationsquelleAutor Jessica | 2012-12-27
1
Antworten
Den weka SimpleKMeans - Implementierung erlaubt dem Benutzer, geben Sie einen "Startwert" mit der option -s. Ich verstehe nicht, was es bedeutet. In dieser link, Mark Hall, der weka Architekt, sagt, dass es eigentlich um Zufallszahlen zu
2
Antworten
Ich habe auf der Suche im Internet bei der Generierung von J48 decision trees, aber so weit, nach fast ein paar Tage habe ich nicht gefunden einem Ergebnis, über das generieren von J48 Entscheidung ohne Weka, meine
1
Antworten
Bin ich haben matrix-Daten mit einigen null-Werten. Füllen Sie die null-Werte habe, möchte ich ausführen, collaborative filtering. Wie studiere ich für R, sondern ich möchte die R. So, weiß jemand, wie man durchführen collaborative filtering in R?
4
Antworten
Nach einigen Recherchen fand ich zwei Funktionen in MATLAB, die Aufgabe zu tun: cvpartition Funktion in der Statistik-Toolbox crossvalind Funktion in der Bioinformatics Toolbox Nun habe ich die cvpartition zu erstellen, die n-fold cross validation Teilmengen vor,
4
Antworten
Ich habe eine Tabelle mit Daten ("norm"), numerische - zumindest was ich sehen kann - normalisierten Werte der folgenden form: Wenn ich ausführen k <- kmeans(norm,center=3) Ich bin receving die folgende Fehlermeldung: Error in do_one(nmeth) : NA/NaN/Inf
1
Antworten
Ein paar Fragen auf stackoverflow erwähnen dieses problem, aber ich habe nicht gefunden eine konkrete Lösung. Habe ich eine quadratische matrix, die aus Kosinus-ähnlichkeiten (Werte zwischen 0 und 1), zum Beispiel: | A | B | C
4
Antworten
Habe ich mit der ada - R-Paket für eine Weile, und vor kurzem caret. Laut der Dokumentation caret's train() Funktion haben sollte, eine option, die verwendet ada. Aber, caret-Zeichen ist kotzen mich an wenn ich mit der
10
Antworten
Ich versuche zu üben, einige data-mining-algorithmen mit Hilfe von hadoop. Kann ich dies mit HDFS allein, oder brauche ich die sub-Projekte wie hive/hbase/Schwein? InformationsquelleAutor realnumber | 2010-07-19
3
Antworten
Ich habe einen Datensatz, bestehend aus 70.000 numerische Werte, die für Entfernungen im Bereich von 0 bis 50, und ich möchte cluster diese zahlen, jedoch, wenn ich versuche, die klassischen clustering-Ansatz, dann würde ich zum einrichten 70,000X70,000
3
Antworten
Ich versuche, die cluster der Twitter-stream. Ich möchte jeden tweet zu einem cluster, dass reden über das gleiche Thema. Ich habe versucht, zu cluster-stream mit einem online-clustering-Algorithmus mit tf/idf-und Cosinus-ähnlichkeit, aber ich fand, dass die Ergebnisse sind
4
Antworten
Ich habe Folgendes problem - aus abstrakten, um den Schlüssel Fragen. Habe ich jeweils 10 Punkten, die in einiger Entfernung von den anderen. Ich möchte in der Lage sein zu finden, das Zentrum des Clusters, d.h. der
4
Antworten
Kann jemand erklären, was der Ausgang des K-Means-clustering in WEKA eigentlich bedeutet. Beispielsweise kMeans Number of iterations: 9 Within cluster sum of squared errors: 9434.911100488926 Missing values globally replaced with mean/mode Cluster centroids: Cluster# Attribute Full Data
5
Antworten
Wenn wir die Berechnung der F-Measure unter Berücksichtigung von Precision und Recall, wir nehmen das harmonische Mittel der beiden Maßnahmen, anstatt eine einfache arithmetische Mittel. Was ist der intuitive Grund hinter der Einnahme das harmonische Mittel und
2
Antworten
Neulich habe ich angefangen E-Commerce-Projekt und ich brauche zur Verwendung von datamining. Einfach nur meine Frage ist, welche Lösung ich verwenden kann in der Entwicklung: MySQL mit PHP SQL-Server mit ASP Eigentlich MySQL ist eine gute Lösung
1
Antworten
so, ich bin versucht, code bis zu den k-nächsten-Nachbar-Algorithmus. Der Eingang zu meiner Funktion würde ein Satz von Daten und eine Probe zu klassifizieren. Ich versuche nur, zu verstehen, die Funktionsweise des Algorithmus. Könnt Ihr mir sagen,
5
Antworten
Arbeite ich an einem data mining-Algorithmus, bei dem ich möchten, wählen Sie eine zufällige Richtung von einem bestimmten Punkt in der feature-Raum. Wenn ich wählen Sie eine zufällige Zahl für jede der n Dimensionen aus [-1,1] und
4
Antworten
Menschen, die oft werfen, um die Begriffe IR, ML und data mining, aber ich habe bemerkt, dass sich viele überschneidungen zwischen Ihnen. Von Menschen mit Erfahrung in diesen Bereichen, was genau zeichnet die Linie zwischen diesen? InformationsquelleAutor
3
Antworten
Diesem derselben installation von Weka geladen hat für mich in der Vergangenheit. Ich bin einfach nur versuchen, die Last der Weka-GUI (Doppelklick auf das Symbol) und ich bekomme die folgende Fehlermeldung. Wie kann ich es beheben? OutOfMemory
16
Antworten
Mich bannen zu müssen Produkt-Daten von einer Website auf einer regelmäßigen basis, und fragte sich, ob jeder weiß, der ein gutes software-Programm? Ich habe erprobt Mozenda aber es ist ein monatliches Abonnement und teuer auf lange Sicht.
5
Antworten
AKTUALISIERT: In das Ende, die Lösung ich entschied mich für das clustering verwenden meine großen Datensatzes wurde ein Vorschlag Anony-Mousse unten. Das heißt, mit ELKI ist DBSCAN Umsetzung zu tun, meine clustering statt scikit-learn ist. Es kann
2
Antworten
Ich weiß, wie zu Lesen binäre Dateien in Python mit NumPy ist np.fromfile() Funktion. Das Problem, das ich konfrontiert bin, ist, dass wenn ich dies tun, wird das array hat überaus großen zahlen in der Größenordnung von
8
Antworten
Statt zu starten, um code in Matlab, ich habe vor kurzem angefangen zu lernen, R, vor allem, weil es ist open-source. Ich bin zurzeit in der data-mining-und machine-learning-Bereich. Ich fand viele machine-learning-algorithmen implementiert in R, und ich
6
Antworten
In mein Verständnis, ich dachte, PCA kann nur durchgeführt werden, für kontinuierliche Funktionen. Aber beim Versuch zu verstehen, den Unterschied zwischen onehot-Codierung und Beschriftung Codierung kam durch einen Beitrag im folgenden link: Bei der Verwendung Eines Hot-Codierung
2
Antworten
Ich habe Daten in form von Zeilen und Spalten, in denen Zeilen repräsentieren einen Datensatz und Spalte stellt seine Attribute. Ich habe auch die Etiketten (Klassen) für die Datensätze. Weiß ich über decision trees-Konzept und ich möchte
4
Antworten
In meinem Programm, ich bin dabei für k=2 für k-mean-Algorithmus ich.e ich will nur 2 Clustern. Ich habe implementiert eine sehr einfache und unkomplizierte Art und Weise immer noch bin ich nicht in der Lage zu verstehen,
1
Antworten
Frage ich mich, ob wir könnten kompilieren Sie eine Liste der Ressourcen für das Data Mining in C#? Speziell ich bin auf der Suche nach Implementierungen von Data Mining-Algorithmen Open-Source-Data-mining-Bibliotheken Tutorials auf Data Mining mit C#/.net-code &
2
Antworten
ich verstehe nicht, was es bedeutet. in der Datenbank ein Tupel bedeutet, dass ein Feld den Wert und ein Attribut bedeutet, dass ein Feld einer Tabelle? bin ich richtig? und was ist ein Class-label im Data Mining?
1
Antworten
Ich bin dabei einige data-mining time series data. Ich brauche zur Berechnung der Distanz oder ähnlichkeit zwischen zwei Reihen von gleichen Abmessungen. Ich wurde vorgeschlagen, euklidischer Abstand, Kosinus-Ähnlichkeit oder die Mahalanobis-Distanz. Die ersten beiden geben nicht keine
2
Antworten
Möchte ich erstellen eigene einfache Empfehlung system, über Bücher. Aber es gibt einige Probleme - es ist nicht möglich (zumindest sehr schwer) für eine person zu organisieren, die Trainings-Daten-set für algorithmen. So, gibt es auch Kostenlose Daten-sets
3
Antworten
Habe ich importiert ein datset in Rapidminer 5 und eine der Spalten werden sollte nominal-oder Polynom wurde festgelegt, als eine numerische. Mein Datensatz hat mehr als 500 Parametern, so dass ich don ' T wirklich wollen, um
2
Antworten
Ich habe die Nummer von kleineren Datensätzen, mit 10 XY-Koordinaten jedes. Ich bin mit Matlab (R2012a)und k-means zu erhalten, einen Schwerpunkt. In einigen Clustern (siehe Abbildung unten), sehe ich einige extreme Punkte, weil meine Daten so klein
6
Antworten
Implementierung FP-growth-Algorithmus mit jeder Sprache. Der code sollte eine Seriennummer, mit der keine Rekursion. Ist es möglich, zur Umsetzung eines solchen Algorithmus ohne Rekursion? Ich bin nicht auf der Suche nach code, ich brauche nur eine Erklärung,
2
Antworten
Ich bin versucht zu kompilieren eines corpus aller Tweets im Zusammenhang mit der WM auf Twitter Ihre API mit Hilfe der twitteR-Paket in R. Ich bin mit dem folgenden code für ein einzelnes hashtag (zum Beispiel). Aber
5
Antworten
Wenn die prozentualen Werte von Unterstützung und Vertrauen gegeben ist, wie finde ich die minimale Unterstützung in der Apriori-Algorithmus. Für ein Beispiel, wenn die Unterstützung und das Vertrauen ist gegeben als 60% und 60% beziehungsweise was ist
2
Antworten
"Ich habe die Entwicklung einer software, die bestimmt ist für Business-Analysten der "Future Stores" - Supermarkt, die software führt die Association Rule Mining gegeben übergangs-Daten der Supermarkt-Umsatz Transaktionen und bereitet die Diskontierung Politik durch die Vorbereitung Combo.
3
Antworten
Habe ich gelesen, dass HTMLAgility 1.4 ist eine großartige Lösung zum Schaben einer Webseite. Ein neuer Programmierer bin ich gehofft, ich könnte einige Beiträge zu diesem Projekt. Ich Tue dies als eine c# - Anwendung bilden. Die