Tag: data-mining

Data mining ist der Prozess der Analyse großer Datenmengen, um Muster zu finden und Gemeinsamkeiten.

Welche Methode verwenden Sie für die Auswahl der optimalen Anzahl der Cluster beim k-means und EM?

Anzahl der Antworten 2 Antworten
Viele algorithmen für das clustering verfügbar sind. Ein beliebter Algorithmus ist der K-means-wo, basierend auf einer bestimmten Anzahl der Cluster, die der Algorithmus iteriert um die besten zu finden von Clustern für die Objekte. Welche Methode sollten

Scikit-Learn: die Vorhersage, die neuen Punkte mit DBSCAN

Anzahl der Antworten 4 Antworten
Ich bin mit DBSCAN-cluster-einige Daten mithilfe von Scikit-Learn (Python 2.7): from sklearn.cluster import DBSCAN dbscan = DBSCAN(random_state=0) dbscan.fit(X) Allerdings fand ich, dass es keine built-in Funktion (abgesehen von "fit_predict") könnten ordnen Sie die neuen Daten Punkte, Y,

Die Klassifizierung einer Instanz in Weka mit NaiveBayes Classifier

Anzahl der Antworten 3 Antworten
Ich Frage mich, ob es einen Weg gibt, um das Modell zu trainieren mit Naive Bayes, und wenden Sie dann, dass zu einem einzigen Datensatz. Ich bin neu bei weka also ich weiß nicht, ob dies möglich

Apriori-Algorithmus Implementierung

Anzahl der Antworten 3 Antworten
Bin ich mit einer apiori Algorithmus Implementierung generieren association rules aus einer Transaktion gesetzt und ich erhalte die folgende Zuordnungsregeln. aber ich bekomme eine association rules 1->8 kann ich davon ausgehen 8->1 weil finden Sie in der

Schnellste Weg zum Lesen, eine große XML-Datei in Java

Anzahl der Antworten 2 Antworten
Arbeite ich an einem java-Projekt zur Optimierung von vorhandenen code. Derzeit bin ich mit BufferedReader/FileInputStream zum Lesen von Inhalten aus einer XML-Datei als String in Java. Aber meine Frage ist , gibt es eine schnellere Möglichkeit zum

Kann mir bitte jemand erklären, data mining, SSIS, BI -, ETL-und andere Verwandte Technologien?

Anzahl der Antworten 3 Antworten
Ich war im Gespräch mit einem Kollegen gestern über eine situation, wo er verwendet, SSIS (oder so ähnlich) zu tun, einige wirklich Coole Sache, mit ein SSIS-Paket, wo er an einen Namen wie "Dr. Reginald Williams, PhD."

Computing F-measure für das clustering

Anzahl der Antworten 4 Antworten
Kann mir jemand helfen bei der Berechnung F-measure gemeinsam ? Ich weiß wie berechnen Sie recall und precision, aber nicht wissen, für einen bestimmten Algorithmus wie berechnet man F-measure-Wert. Als Beispiel, angenommen mein Algorithmus erstellt m Clustern,

Google-data-mining-tool

Anzahl der Antworten 2 Antworten
Vor kurzem Las ich über ein neues Google-code gehostet (open source -) Projekt von Google ermöglicht Ihnen die Durchführung von data mining und analytics auf verschiedenen input-Dateien. Es gab sogar ein video, in dem der Benutzer das

Parameter estimation in DBSCAN

Anzahl der Antworten 1 Antworten
Ich brauche zu finden, natürlich vorkommende Klassen der Substantive basiert auf deren Verteilung mit verschiedener Präposition (wie agentive, instrumental, Ort, Zeit usw.). Ich habe versucht mit k-means-clustering, aber weniger helfen, es hat nicht funktioniert gut, es wurde

TFIDF-Berechnung Verwirrung

Anzahl der Antworten 2 Antworten
Fand ich folgenden code im internet für die Berechnung der TFIDF: https://github.com/timtrueman/tf-idf/blob/master/tf-idf.py Fügte ich hinzu "1+" in der Funktion def idf(word, documentList), damit ich nicht bekommen, geteilt durch 0 Fehler: return math.log(len(documentList) / (1 + float(numDocsContaining(word,documentList)))) Aber

Wie finde ich die Mitte aus einem cluster von Daten-Punkten?

Anzahl der Antworten 14 Antworten
Sagen wir mal ich aufgetragen, der die position des Hubschraubers jeden Tag für das vergangene Jahr und kam mit der folgenden Karte: Jedem menschlichen Blick auf diese in der Lage wäre, mir zu sagen, dass dieser Hubschrauber

Wie stellen Sie die Parameter im WEKA balance-Daten SCHLUG mit filter?

Anzahl der Antworten 2 Antworten
Verwende ich SCHLUG filter in WEKA balance-Daten. Ich habe Zweifel über die zwei Parameter nearestNeighbors und percentage. nearestNeighbors -- Die Anzahl der nächsten Nachbarn zu verwenden. Prozentsatz -- der Anteil Der SCHLUG Instanzen zu erstellen. Wie sollte

WEKA - JDBC-Verbindung Ausnahme

Anzahl der Antworten 1 Antworten
Ich bin vor JDBC-Verbindung problem beim verbinden MySQL-DB mit Hilfe von WEKA. Hier mein DatabaseUtils.Eigenschaften Datei: jdbcDriver=com.mysql.jdbc.Driver jdbcURL=jdbc:mysql://localhost:3306/mydb Und ich fügte hinzu, jdbc-mysql-jar in den Pfad: /opt/SenchaSDKTools-2.0.0-beta3:/usr/lib/lightdm/lightdm:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/home/talha/apache-maven-3.0.4/bin:/home/talha/mysql-connector-java-5.1.20.jar:/opt/SenchaSDKTools-2.0.0-beta3:/home/talha/apache-maven-3.0.4/bin:/usr/lib/jvm/jdk1.7.0_05/bin:/home/talha/apache-maven-3.0.4/bin Java-Klasse [Eine einfache test-Klasse] public class Test { public static

Was ist die rechnerische Komplexität des EM-Algorithmus?

Anzahl der Antworten 3 Antworten
Im Allgemeinen, und insbesondere für Bernoulli mixture Modell (aka Latent-Class-Analyse). InformationsquelleAutor Jessica | 2012-12-27

Bedeutung von "seed" im weka-K-means-clustering

Anzahl der Antworten 1 Antworten
Den weka SimpleKMeans - Implementierung erlaubt dem Benutzer, geben Sie einen "Startwert" mit der option -s. Ich verstehe nicht, was es bedeutet. In dieser link, Mark Hall, der weka Architekt, sagt, dass es eigentlich um Zufallszahlen zu

J48 decision tree

Anzahl der Antworten 2 Antworten
Ich habe auf der Suche im Internet bei der Generierung von J48 decision trees, aber so weit, nach fast ein paar Tage habe ich nicht gefunden einem Ergebnis, über das generieren von J48 Entscheidung ohne Weka, meine

Wie zum ausführen von collaborative filtering in R

Anzahl der Antworten 1 Antworten
Bin ich haben matrix-Daten mit einigen null-Werten. Füllen Sie die null-Werte habe, möchte ich ausführen, collaborative filtering. Wie studiere ich für R, sondern ich möchte die R. So, weiß jemand, wie man durchführen collaborative filtering in R?

Aufteilung der Daten in Trainings - /Test-Datensätze in MATLAB?

Anzahl der Antworten 4 Antworten
Nach einigen Recherchen fand ich zwei Funktionen in MATLAB, die Aufgabe zu tun: cvpartition Funktion in der Statistik-Toolbox crossvalind Funktion in der Bioinformatics Toolbox Nun habe ich die cvpartition zu erstellen, die n-fold cross validation Teilmengen vor,

Fehler in do_one(nmeth) : NA/NaN/Inf in foreign function call (arg 1)

Anzahl der Antworten 4 Antworten
Ich habe eine Tabelle mit Daten ("norm"), numerische - zumindest was ich sehen kann - normalisierten Werte der folgenden form: Wenn ich ausführen k <- kmeans(norm,center=3) Ich bin receving die folgende Fehlermeldung: Error in do_one(nmeth) : NA/NaN/Inf

Clustering-cosine similarity matrix

Anzahl der Antworten 1 Antworten
Ein paar Fragen auf stackoverflow erwähnen dieses problem, aber ich habe nicht gefunden eine konkrete Lösung. Habe ich eine quadratische matrix, die aus Kosinus-ähnlichkeiten (Werte zwischen 0 und 1), zum Beispiel: | A | B | C

Mit adaboost in R caret-Paket

Anzahl der Antworten 4 Antworten
Habe ich mit der ada - R-Paket für eine Weile, und vor kurzem caret. Laut der Dokumentation caret's train() Funktion haben sollte, eine option, die verwendet ada. Aber, caret-Zeichen ist kotzen mich an wenn ich mit der

Hadoop-Anfänger

Anzahl der Antworten 10 Antworten
Ich versuche zu üben, einige data-mining-algorithmen mit Hilfe von hadoop. Kann ich dies mit HDFS allein, oder brauche ich die sub-Projekte wie hive/hbase/Schwein? InformationsquelleAutor realnumber | 2010-07-19

clustering von sehr großen Datensätzen in R

Anzahl der Antworten 3 Antworten
Ich habe einen Datensatz, bestehend aus 70.000 numerische Werte, die für Entfernungen im Bereich von 0 bis 50, und ich möchte cluster diese zahlen, jedoch, wenn ich versuche, die klassischen clustering-Ansatz, dann würde ich zum einrichten 70,000X70,000

Besser text-Dokumenten-clustering als tf/idf-und Cosinus-ähnlichkeit?

Anzahl der Antworten 3 Antworten
Ich versuche, die cluster der Twitter-stream. Ich möchte jeden tweet zu einem cluster, dass reden über das gleiche Thema. Ich habe versucht, zu cluster-stream mit einem online-clustering-Algorithmus mit tf/idf-und Cosinus-ähnlichkeit, aber ich fand, dass die Ergebnisse sind

Das finden der Mitte eines Clusters

Anzahl der Antworten 4 Antworten
Ich habe Folgendes problem - aus abstrakten, um den Schlüssel Fragen. Habe ich jeweils 10 Punkten, die in einiger Entfernung von den anderen. Ich möchte in der Lage sein zu finden, das Zentrum des Clusters, d.h. der

WEKA K-Means-Clustering

Anzahl der Antworten 4 Antworten
Kann jemand erklären, was der Ausgang des K-Means-clustering in WEKA eigentlich bedeutet. Beispielsweise kMeans Number of iterations: 9 Within cluster sum of squared errors: 9434.911100488926 Missing values globally replaced with mean/mode Cluster centroids: Cluster# Attribute Full Data

Warum ist der F-Measure eine harmonische Mittelwert und nicht das arithmetische Mittel von Präzision und Recall-Maßnahmen?

Anzahl der Antworten 5 Antworten
Wenn wir die Berechnung der F-Measure unter Berücksichtigung von Precision und Recall, wir nehmen das harmonische Mittel der beiden Maßnahmen, anstatt eine einfache arithmetische Mittel. Was ist der intuitive Grund hinter der Einnahme das harmonische Mittel und

Data mining auf MySQL

Anzahl der Antworten 2 Antworten
Neulich habe ich angefangen E-Commerce-Projekt und ich brauche zur Verwendung von datamining. Einfach nur meine Frage ist, welche Lösung ich verwenden kann in der Entwicklung: MySQL mit PHP SQL-Server mit ASP Eigentlich MySQL ist eine gute Lösung

K-nächsten Nachbarn pseudocode?

Anzahl der Antworten 1 Antworten
so, ich bin versucht, code bis zu den k-nächsten-Nachbar-Algorithmus. Der Eingang zu meiner Funktion würde ein Satz von Daten und eine Probe zu klassifizieren. Ich versuche nur, zu verstehen, die Funktionsweise des Algorithmus. Könnt Ihr mir sagen,

random unit vector in multi-dimensionalen Raum

Anzahl der Antworten 5 Antworten
Arbeite ich an einem data mining-Algorithmus, bei dem ich möchten, wählen Sie eine zufällige Richtung von einem bestimmten Punkt in der feature-Raum. Wenn ich wählen Sie eine zufällige Zahl für jede der n Dimensionen aus [-1,1] und

Information retrieval (IR) vs data mining vs Machine Learning (ML)

Anzahl der Antworten 4 Antworten
Menschen, die oft werfen, um die Begriffe IR, ML und data mining, aber ich habe bemerkt, dass sich viele überschneidungen zwischen Ihnen. Von Menschen mit Erfahrung in diesen Bereichen, was genau zeichnet die Linie zwischen diesen? InformationsquelleAutor

Weka GUI - Speicher reicht Nicht aus, wird nicht geladen?

Anzahl der Antworten 3 Antworten
Diesem derselben installation von Weka geladen hat für mich in der Vergangenheit. Ich bin einfach nur versuchen, die Last der Weka-GUI (Doppelklick auf das Symbol) und ich bekomme die folgende Fehlermeldung. Wie kann ich es beheben? OutOfMemory

Eine gute web-Daten-Extraktion - /screen-scraper-Programm?

Anzahl der Antworten 16 Antworten
Mich bannen zu müssen Produkt-Daten von einer Website auf einer regelmäßigen basis, und fragte sich, ob jeder weiß, der ein gutes software-Programm? Ich habe erprobt Mozenda aber es ist ein monatliches Abonnement und teuer auf lange Sicht.

scikit-learn DBSCAN memory Nutzung

Anzahl der Antworten 5 Antworten
AKTUALISIERT: In das Ende, die Lösung ich entschied mich für das clustering verwenden meine großen Datensatzes wurde ein Vorschlag Anony-Mousse unten. Das heißt, mit ELKI ist DBSCAN Umsetzung zu tun, meine clustering statt scikit-learn ist. Es kann

Wie zu Lesen binäre Dateien in Python mit NumPy?

Anzahl der Antworten 2 Antworten
Ich weiß, wie zu Lesen binäre Dateien in Python mit NumPy ist np.fromfile() Funktion. Das Problem, das ich konfrontiert bin, ist, dass wenn ich dies tun, wird das array hat überaus großen zahlen in der Größenordnung von

Vergleich von R zu Matlab für Data Mining

Anzahl der Antworten 8 Antworten
Statt zu starten, um code in Matlab, ich habe vor kurzem angefangen zu lernen, R, vor allem, weil es ist open-source. Ich bin zurzeit in der data-mining-und machine-learning-Bereich. Ich fand viele machine-learning-algorithmen implementiert in R, und ich

PCA Für kategoriale Merkmale?

Anzahl der Antworten 6 Antworten
In mein Verständnis, ich dachte, PCA kann nur durchgeführt werden, für kontinuierliche Funktionen. Aber beim Versuch zu verstehen, den Unterschied zwischen onehot-Codierung und Beschriftung Codierung kam durch einen Beitrag im folgenden link: Bei der Verwendung Eines Hot-Codierung

Wie verwenden von Decision Tree Classification Matlab?

Anzahl der Antworten 2 Antworten
Ich habe Daten in form von Zeilen und Spalten, in denen Zeilen repräsentieren einen Datensatz und Spalte stellt seine Attribute. Ich habe auch die Etiketten (Klassen) für die Datensätze. Weiß ich über decision trees-Konzept und ich möchte

Implementierung des k-means-clustering-Algorithmus

Anzahl der Antworten 4 Antworten
In meinem Programm, ich bin dabei für k=2 für k-mean-Algorithmus ich.e ich will nur 2 Clustern. Ich habe implementiert eine sehr einfache und unkomplizierte Art und Weise immer noch bin ich nicht in der Lage zu verstehen,

Data-Mining-Ressourcen für C#

Anzahl der Antworten 1 Antworten
Frage ich mich, ob wir könnten kompilieren Sie eine Liste der Ressourcen für das Data Mining in C#? Speziell ich bin auf der Suche nach Implementierungen von Data Mining-Algorithmen Open-Source-Data-mining-Bibliotheken Tutorials auf Data Mining mit C#/.net-code &

In data mining-was ist ein Klasse label..? bitte geben Sie ein Beispiel

Anzahl der Antworten 2 Antworten
ich verstehe nicht, was es bedeutet. in der Datenbank ein Tupel bedeutet, dass ein Feld den Wert und ein Attribut bedeutet, dass ein Feld einer Tabelle? bin ich richtig? und was ist ein Class-label im Data Mining?

Wie berechne Mahalanobis-Distanz zwischen zwei Zeitreihen mit gleichen Abmessungen?

Anzahl der Antworten 1 Antworten
Ich bin dabei einige data-mining time series data. Ich brauche zur Berechnung der Distanz oder ähnlichkeit zwischen zwei Reihen von gleichen Abmessungen. Ich wurde vorgeschlagen, euklidischer Abstand, Kosinus-Ähnlichkeit oder die Mahalanobis-Distanz. Die ersten beiden geben nicht keine

Datensatz für Empfehlungssystem

Anzahl der Antworten 2 Antworten
Möchte ich erstellen eigene einfache Empfehlung system, über Bücher. Aber es gibt einige Probleme - es ist nicht möglich (zumindest sehr schwer) für eine person zu organisieren, die Trainings-Daten-set für algorithmen. So, gibt es auch Kostenlose Daten-sets

In Rapidminer sobald ich Importiere einen Datensatz wie ändere ich den Typ einer Spalte?

Anzahl der Antworten 3 Antworten
Habe ich importiert ein datset in Rapidminer 5 und eine der Spalten werden sollte nominal-oder Polynom wurde festgelegt, als eine numerische. Mein Datensatz hat mehr als 500 Parametern, so dass ich don ' T wirklich wollen, um

Das entfernen von Ausreißern aus einer k-mean-cluster

Anzahl der Antworten 2 Antworten
Ich habe die Nummer von kleineren Datensätzen, mit 10 XY-Koordinaten jedes. Ich bin mit Matlab (R2012a)und k-means zu erhalten, einen Schwerpunkt. In einigen Clustern (siehe Abbildung unten), sehe ich einige extreme Punkte, weil meine Daten so klein

fp-growth-Algorithmus

Anzahl der Antworten 6 Antworten
Implementierung FP-growth-Algorithmus mit jeder Sprache. Der code sollte eine Seriennummer, mit der keine Rekursion. Ist es möglich, zur Umsetzung eines solchen Algorithmus ohne Rekursion? Ich bin nicht auf der Suche nach code, ich brauche nur eine Erklärung,

Suche nach twitter und erhalten Sie tweets per hashtag, der Maximierung der Anzahl der zurückgegebenen Suchergebnisse

Anzahl der Antworten 2 Antworten
Ich bin versucht zu kompilieren eines corpus aller Tweets im Zusammenhang mit der WM auf Twitter Ihre API mit Hilfe der twitteR-Paket in R. Ich bin mit dem folgenden code für ein einzelnes hashtag (zum Beispiel). Aber

Wie finden Sie die minimale Unterstützung in der Apriori-Algorithmus

Anzahl der Antworten 5 Antworten
Wenn die prozentualen Werte von Unterstützung und Vertrauen gegeben ist, wie finde ich die minimale Unterstützung in der Apriori-Algorithmus. Für ein Beispiel, wenn die Unterstützung und das Vertrauen ist gegeben als 60% und 60% beziehungsweise was ist

Supermarkt-dataset für Apriori-Algorithmus

Anzahl der Antworten 2 Antworten
"Ich habe die Entwicklung einer software, die bestimmt ist für Business-Analysten der "Future Stores" - Supermarkt, die software führt die Association Rule Mining gegeben übergangs-Daten der Supermarkt-Umsatz Transaktionen und bereitet die Diskontierung Politik durch die Vorbereitung Combo.

Schaben einer Webseite mit C# und HTMLAgility

Anzahl der Antworten 3 Antworten
Habe ich gelesen, dass HTMLAgility 1.4 ist eine großartige Lösung zum Schaben einer Webseite. Ein neuer Programmierer bin ich gehofft, ich könnte einige Beiträge zu diesem Projekt. Ich Tue dies als eine c# - Anwendung bilden. Die