Tag: data-mining

Data mining ist der Prozess der Analyse großer Datenmengen, um Muster zu finden und Gemeinsamkeiten.

Welche Methode verwenden Sie für die Auswahl der optimalen Anzahl der Cluster beim k-means und EM?

2 Antworten

Viele algorithmen für das clustering verfügbar sind. Ein beliebter Algorithmus ist der K-means-wo, basierend auf einer bestimmten Anzahl der Cluster, die der Algorithmus iteriert um die besten zu finden von Clustern für die Objekte. Welche Methode sollten

Scikit-Learn: die Vorhersage, die neuen Punkte mit DBSCAN

4 Antworten

Ich bin mit DBSCAN-cluster-einige Daten mithilfe von Scikit-Learn (Python 2.7): from sklearn.cluster import DBSCAN dbscan = DBSCAN(random_state=0) dbscan.fit(X) Allerdings fand ich, dass es keine built-in Funktion (abgesehen von "fit_predict") könnten ordnen Sie die neuen Daten Punkte, Y,

cluster-analysis data-mining dbscan predict scikit-learn

Die Klassifizierung einer Instanz in Weka mit NaiveBayes Classifier

3 Antworten

Ich Frage mich, ob es einen Weg gibt, um das Modell zu trainieren mit Naive Bayes, und wenden Sie dann, dass zu einem einzigen Datensatz. Ich bin neu bei weka also ich weiß nicht, ob dies möglich

classification data-mining weka

Apriori-Algorithmus Implementierung

3 Antworten

Bin ich mit einer apiori Algorithmus Implementierung generieren association rules aus einer Transaktion gesetzt und ich erhalte die folgende Zuordnungsregeln. aber ich bekomme eine association rules 1->8 kann ich davon ausgehen 8->1 weil finden Sie in der

apriori artificial-intelligence associations data-mining

Schnellste Weg zum Lesen, eine große XML-Datei in Java

2 Antworten

Arbeite ich an einem java-Projekt zur Optimierung von vorhandenen code. Derzeit bin ich mit BufferedReader/FileInputStream zum Lesen von Inhalten aus einer XML-Datei als String in Java. Aber meine Frage ist , gibt es eine schnellere Möglichkeit zum

data-mining information-retrieval java xml xml-parsing

Kann mir bitte jemand erklären, data mining, SSIS, BI -, ETL-und andere Verwandte Technologien?

3 Antworten

Ich war im Gespräch mit einem Kollegen gestern über eine situation, wo er verwendet, SSIS (oder so ähnlich) zu tun, einige wirklich Coole Sache, mit ein SSIS-Paket, wo er an einen Namen wie "Dr. Reginald Williams, PhD."

business-intelligence data-mining ssis

Computing F-measure für das clustering

4 Antworten

Kann mir jemand helfen bei der Berechnung F-measure gemeinsam ? Ich weiß wie berechnen Sie recall und precision, aber nicht wissen, für einen bestimmten Algorithmus wie berechnet man F-measure-Wert. Als Beispiel, angenommen mein Algorithmus erstellt m Clustern,

cluster-analysis data-mining precision-recall

Google-data-mining-tool

2 Antworten

Vor kurzem Las ich über ein neues Google-code gehostet (open source -) Projekt von Google ermöglicht Ihnen die Durchführung von data mining und analytics auf verschiedenen input-Dateien. Es gab sogar ein video, in dem der Benutzer das

data-mining

Parameter estimation in DBSCAN

1 Antworten

Ich brauche zu finden, natürlich vorkommende Klassen der Substantive basiert auf deren Verteilung mit verschiedener Präposition (wie agentive, instrumental, Ort, Zeit usw.). Ich habe versucht mit k-means-clustering, aber weniger helfen, es hat nicht funktioniert gut, es wurde

cluster-analysis data-mining dbscan

TFIDF-Berechnung Verwirrung

2 Antworten

Fand ich folgenden code im internet für die Berechnung der TFIDF: https://github.com/timtrueman/tf-idf/blob/master/tf-idf.py Fügte ich hinzu "1+" in der Funktion def idf(word, documentList), damit ich nicht bekommen, geteilt durch 0 Fehler: return math.log(len(documentList) / (1 + float(numDocsContaining(word,documentList)))) Aber

data-mining information-retrieval python text-processing tf-idf

Wie finde ich die Mitte aus einem cluster von Daten-Punkten?

14 Antworten

Sagen wir mal ich aufgetragen, der die position des Hubschraubers jeden Tag für das vergangene Jahr und kam mit der folgenden Karte: Jedem menschlichen Blick auf diese in der Lage wäre, mir zu sagen, dass dieser Hubschrauber

algorithm cluster-analysis data-mining geocoding markerclusterer

Wie stellen Sie die Parameter im WEKA balance-Daten SCHLUG mit filter?

2 Antworten

Verwende ich SCHLUG filter in WEKA balance-Daten. Ich habe Zweifel über die zwei Parameter nearestNeighbors und percentage. nearestNeighbors -- Die Anzahl der nächsten Nachbarn zu verwenden. Prozentsatz -- der Anteil Der SCHLUG Instanzen zu erstellen. Wie sollte

data-mining sample-data weka

WEKA - JDBC-Verbindung Ausnahme

1 Antworten

Ich bin vor JDBC-Verbindung problem beim verbinden MySQL-DB mit Hilfe von WEKA. Hier mein DatabaseUtils.Eigenschaften Datei: jdbcDriver=com.mysql.jdbc.Driver jdbcURL=jdbc:mysql://localhost:3306/mydb Und ich fügte hinzu, jdbc-mysql-jar in den Pfad: /opt/SenchaSDKTools-2.0.0-beta3:/usr/lib/lightdm/lightdm:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/home/talha/apache-maven-3.0.4/bin:/home/talha/mysql-connector-java-5.1.20.jar:/opt/SenchaSDKTools-2.0.0-beta3:/home/talha/apache-maven-3.0.4/bin:/usr/lib/jvm/jdk1.7.0_05/bin:/home/talha/apache-maven-3.0.4/bin Java-Klasse [Eine einfache test-Klasse] public class Test { public static

data-mining java jdbc weka

Was ist die rechnerische Komplexität des EM-Algorithmus?

3 Antworten

Im Allgemeinen, und insbesondere für Bernoulli mixture Modell (aka Latent-Class-Analyse). InformationsquelleAutor Jessica | 2012-12-27

cluster-analysis data-mining machine-learning space-complexity time-complexity

Bedeutung von "seed" im weka-K-means-clustering

1 Antworten

Den weka SimpleKMeans - Implementierung erlaubt dem Benutzer, geben Sie einen "Startwert" mit der option -s. Ich verstehe nicht, was es bedeutet. In dieser link, Mark Hall, der weka Architekt, sagt, dass es eigentlich um Zufallszahlen zu

cluster-analysis data-mining java k-means weka

J48 decision tree

2 Antworten

Ich habe auf der Suche im Internet bei der Generierung von J48 decision trees, aber so weit, nach fast ein paar Tage habe ich nicht gefunden einem Ergebnis, über das generieren von J48 Entscheidung ohne Weka, meine

data-mining decision-tree

Wie zum ausführen von collaborative filtering in R

1 Antworten

Bin ich haben matrix-Daten mit einigen null-Werten. Füllen Sie die null-Werte habe, möchte ich ausführen, collaborative filtering. Wie studiere ich für R, sondern ich möchte die R. So, weiß jemand, wie man durchführen collaborative filtering in R?

collaborative-filtering data-mining r

Aufteilung der Daten in Trainings - /Test-Datensätze in MATLAB?

4 Antworten

Nach einigen Recherchen fand ich zwei Funktionen in MATLAB, die Aufgabe zu tun: cvpartition Funktion in der Statistik-Toolbox crossvalind Funktion in der Bioinformatics Toolbox Nun habe ich die cvpartition zu erstellen, die n-fold cross validation Teilmengen vor,

data-mining matlab

Fehler in do_one(nmeth) : NA/NaN/Inf in foreign function call (arg 1)

4 Antworten

Ich habe eine Tabelle mit Daten ("norm"), numerische - zumindest was ich sehen kann - normalisierten Werte der folgenden form: Wenn ich ausführen k <- kmeans(norm,center=3) Ich bin receving die folgende Fehlermeldung: Error in do_one(nmeth) : NA/NaN/Inf

cluster-analysis data-mining k-means machine-learning r

Clustering-cosine similarity matrix

1 Antworten

Ein paar Fragen auf stackoverflow erwähnen dieses problem, aber ich habe nicht gefunden eine konkrete Lösung. Habe ich eine quadratische matrix, die aus Kosinus-ähnlichkeiten (Werte zwischen 0 und 1), zum Beispiel: | A | B | C

cluster-analysis data-mining math python scikit-learn

Mit adaboost in R caret-Paket

4 Antworten

Habe ich mit der ada - R-Paket für eine Weile, und vor kurzem caret. Laut der Dokumentation caret's train() Funktion haben sollte, eine option, die verwendet ada. Aber, caret-Zeichen ist kotzen mich an wenn ich mit der

adaboost classification data-mining machine-learning r

Hadoop-Anfänger

10 Antworten

Ich versuche zu üben, einige data-mining-algorithmen mit Hilfe von hadoop. Kann ich dies mit HDFS allein, oder brauche ich die sub-Projekte wie hive/hbase/Schwein? InformationsquelleAutor realnumber | 2010-07-19

data-mining hadoop

clustering von sehr großen Datensätzen in R

3 Antworten

Ich habe einen Datensatz, bestehend aus 70.000 numerische Werte, die für Entfernungen im Bereich von 0 bis 50, und ich möchte cluster diese zahlen, jedoch, wenn ich versuche, die klassischen clustering-Ansatz, dann würde ich zum einrichten 70,000X70,000

bigdata cluster-analysis data-mining machine-learning r

Besser text-Dokumenten-clustering als tf/idf-und Cosinus-ähnlichkeit?

3 Antworten

Ich versuche, die cluster der Twitter-stream. Ich möchte jeden tweet zu einem cluster, dass reden über das gleiche Thema. Ich habe versucht, zu cluster-stream mit einem online-clustering-Algorithmus mit tf/idf-und Cosinus-ähnlichkeit, aber ich fand, dass die Ergebnisse sind

cluster-analysis data-mining machine-learning text-mining

Das finden der Mitte eines Clusters

4 Antworten

Ich habe Folgendes problem - aus abstrakten, um den Schlüssel Fragen. Habe ich jeweils 10 Punkten, die in einiger Entfernung von den anderen. Ich möchte in der Lage sein zu finden, das Zentrum des Clusters, d.h. der

algorithm cluster-analysis data-mining

WEKA K-Means-Clustering

4 Antworten

Kann jemand erklären, was der Ausgang des K-Means-clustering in WEKA eigentlich bedeutet. Beispielsweise kMeans Number of iterations: 9 Within cluster sum of squared errors: 9434.911100488926 Missing values globally replaced with mean/mode Cluster centroids: Cluster# Attribute Full Data

cluster-analysis data-mining k-means weka

Warum ist der F-Measure eine harmonische Mittelwert und nicht das arithmetische Mittel von Präzision und Recall-Maßnahmen?

5 Antworten

Wenn wir die Berechnung der F-Measure unter Berücksichtigung von Precision und Recall, wir nehmen das harmonische Mittel der beiden Maßnahmen, anstatt eine einfache arithmetische Mittel. Was ist der intuitive Grund hinter der Einnahme das harmonische Mittel und

classification data-mining machine-learning

Data mining auf MySQL

2 Antworten

Neulich habe ich angefangen E-Commerce-Projekt und ich brauche zur Verwendung von datamining. Einfach nur meine Frage ist, welche Lösung ich verwenden kann in der Entwicklung: MySQL mit PHP SQL-Server mit ASP Eigentlich MySQL ist eine gute Lösung

asp.net-mvc data-mining mysql php sql-server

K-nächsten Nachbarn pseudocode?

1 Antworten

so, ich bin versucht, code bis zu den k-nächsten-Nachbar-Algorithmus. Der Eingang zu meiner Funktion würde ein Satz von Daten und eine Probe zu klassifizieren. Ich versuche nur, zu verstehen, die Funktionsweise des Algorithmus. Könnt Ihr mir sagen,

algorithm data-mining nearest-neighbor r

random unit vector in multi-dimensionalen Raum

5 Antworten

Arbeite ich an einem data mining-Algorithmus, bei dem ich möchten, wählen Sie eine zufällige Richtung von einem bestimmten Punkt in der feature-Raum. Wenn ich wählen Sie eine zufällige Zahl für jede der n Dimensionen aus [-1,1] und

computational-geometry data-mining distribution random uniform

Information retrieval (IR) vs data mining vs Machine Learning (ML)

4 Antworten

Menschen, die oft werfen, um die Begriffe IR, ML und data mining, aber ich habe bemerkt, dass sich viele überschneidungen zwischen Ihnen. Von Menschen mit Erfahrung in diesen Bereichen, was genau zeichnet die Linie zwischen diesen? InformationsquelleAutor

data-mining information-retrieval machine-learning

Weka GUI - Speicher reicht Nicht aus, wird nicht geladen?

3 Antworten

Diesem derselben installation von Weka geladen hat für mich in der Vergangenheit. Ich bin einfach nur versuchen, die Last der Weka-GUI (Doppelklick auf das Symbol) und ich bekomme die folgende Fehlermeldung. Wie kann ich es beheben? OutOfMemory

data-mining machine-learning weka

Eine gute web-Daten-Extraktion - /screen-scraper-Programm?

16 Antworten

Mich bannen zu müssen Produkt-Daten von einer Website auf einer regelmäßigen basis, und fragte sich, ob jeder weiß, der ein gutes software-Programm? Ich habe erprobt Mozenda aber es ist ein monatliches Abonnement und teuer auf lange Sicht.

data-mining screen-scraping

scikit-learn DBSCAN memory Nutzung

5 Antworten

AKTUALISIERT: In das Ende, die Lösung ich entschied mich für das clustering verwenden meine großen Datensatzes wurde ein Vorschlag Anony-Mousse unten. Das heißt, mit ELKI ist DBSCAN Umsetzung zu tun, meine clustering statt scikit-learn ist. Es kann

cluster-analysis data-mining dbscan python scikit-learn

Wie zu Lesen binäre Dateien in Python mit NumPy?

2 Antworten

Ich weiß, wie zu Lesen binäre Dateien in Python mit NumPy ist np.fromfile() Funktion. Das Problem, das ich konfrontiert bin, ist, dass wenn ich dies tun, wird das array hat überaus großen zahlen in der Größenordnung von

data-mining machine-learning numpy python

Vergleich von R zu Matlab für Data Mining

8 Antworten

Statt zu starten, um code in Matlab, ich habe vor kurzem angefangen zu lernen, R, vor allem, weil es ist open-source. Ich bin zurzeit in der data-mining-und machine-learning-Bereich. Ich fand viele machine-learning-algorithmen implementiert in R, und ich

data-mining language-comparisons machine-learning matlab r

PCA Für kategoriale Merkmale?

6 Antworten

In mein Verständnis, ich dachte, PCA kann nur durchgeführt werden, für kontinuierliche Funktionen. Aber beim Versuch zu verstehen, den Unterschied zwischen onehot-Codierung und Beschriftung Codierung kam durch einen Beitrag im folgenden link: Bei der Verwendung Eines Hot-Codierung

data-mining machine-learning python scikit-learn

Wie verwenden von Decision Tree Classification Matlab?

2 Antworten

Ich habe Daten in form von Zeilen und Spalten, in denen Zeilen repräsentieren einen Datensatz und Spalte stellt seine Attribute. Ich habe auch die Etiketten (Klassen) für die Datensätze. Weiß ich über decision trees-Konzept und ich möchte

data-mining decision-tree matlab

Implementierung des k-means-clustering-Algorithmus

4 Antworten

In meinem Programm, ich bin dabei für k=2 für k-mean-Algorithmus ich.e ich will nur 2 Clustern. Ich habe implementiert eine sehr einfache und unkomplizierte Art und Weise immer noch bin ich nicht in der Lage zu verstehen,

algorithm cluster-analysis data-mining java k-means

Data-Mining-Ressourcen für C#

1 Antworten

Frage ich mich, ob wir könnten kompilieren Sie eine Liste der Ressourcen für das Data Mining in C#? Speziell ich bin auf der Suche nach Implementierungen von Data Mining-Algorithmen Open-Source-Data-mining-Bibliotheken Tutorials auf Data Mining mit C#/.net-code &

.net c#data-mining

In data mining-was ist ein Klasse label..? bitte geben Sie ein Beispiel

2 Antworten

ich verstehe nicht, was es bedeutet. in der Datenbank ein Tupel bedeutet, dass ein Feld den Wert und ein Attribut bedeutet, dass ein Feld einer Tabelle? bin ich richtig? und was ist ein Class-label im Data Mining?

data-mining

Wie berechne Mahalanobis-Distanz zwischen zwei Zeitreihen mit gleichen Abmessungen?

1 Antworten

Ich bin dabei einige data-mining time series data. Ich brauche zur Berechnung der Distanz oder ähnlichkeit zwischen zwei Reihen von gleichen Abmessungen. Ich wurde vorgeschlagen, euklidischer Abstand, Kosinus-Ähnlichkeit oder die Mahalanobis-Distanz. Die ersten beiden geben nicht keine

data-mining distance math similarity time

Datensatz für Empfehlungssystem

2 Antworten

Möchte ich erstellen eigene einfache Empfehlung system, über Bücher. Aber es gibt einige Probleme - es ist nicht möglich (zumindest sehr schwer) für eine person zu organisieren, die Trainings-Daten-set für algorithmen. So, gibt es auch Kostenlose Daten-sets

data-mining recommendation-engine

In Rapidminer sobald ich Importiere einen Datensatz wie ändere ich den Typ einer Spalte?

3 Antworten

Habe ich importiert ein datset in Rapidminer 5 und eine der Spalten werden sollte nominal-oder Polynom wurde festgelegt, als eine numerische. Mein Datensatz hat mehr als 500 Parametern, so dass ich don ' T wirklich wollen, um

data-mining rapidminer

Das entfernen von Ausreißern aus einer k-mean-cluster

2 Antworten

Ich habe die Nummer von kleineren Datensätzen, mit 10 XY-Koordinaten jedes. Ich bin mit Matlab (R2012a)und k-means zu erhalten, einen Schwerpunkt. In einigen Clustern (siehe Abbildung unten), sehe ich einige extreme Punkte, weil meine Daten so klein

cluster-analysis data-mining k-means matlab outliers

fp-growth-Algorithmus

6 Antworten

Implementierung FP-growth-Algorithmus mit jeder Sprache. Der code sollte eine Seriennummer, mit der keine Rekursion. Ist es möglich, zur Umsetzung eines solchen Algorithmus ohne Rekursion? Ich bin nicht auf der Suche nach code, ich brauche nur eine Erklärung,

algorithm data-mining

Suche nach twitter und erhalten Sie tweets per hashtag, der Maximierung der Anzahl der zurückgegebenen Suchergebnisse

2 Antworten

Ich bin versucht zu kompilieren eines corpus aller Tweets im Zusammenhang mit der WM auf Twitter Ihre API mit Hilfe der twitteR-Paket in R. Ich bin mit dem folgenden code für ein einzelnes hashtag (zum Beispiel). Aber

data-mining oauth r twitter twitter-oauth

Wie finden Sie die minimale Unterstützung in der Apriori-Algorithmus

5 Antworten

Wenn die prozentualen Werte von Unterstützung und Vertrauen gegeben ist, wie finde ich die minimale Unterstützung in der Apriori-Algorithmus. Für ein Beispiel, wenn die Unterstützung und das Vertrauen ist gegeben als 60% und 60% beziehungsweise was ist

apriori data-mining

Supermarkt-dataset für Apriori-Algorithmus

2 Antworten

"Ich habe die Entwicklung einer software, die bestimmt ist für Business-Analysten der "Future Stores" - Supermarkt, die software führt die Association Rule Mining gegeben übergangs-Daten der Supermarkt-Umsatz Transaktionen und bereitet die Diskontierung Politik durch die Vorbereitung Combo.

apriori data-mining dataset integration-testing

Schaben einer Webseite mit C# und HTMLAgility

3 Antworten

Habe ich gelesen, dass HTMLAgility 1.4 ist eine großartige Lösung zum Schaben einer Webseite. Ein neuer Programmierer bin ich gehofft, ich könnte einige Beiträge zu diesem Projekt. Ich Tue dies als eine c# - Anwendung bilden. Die

.net c#data-mining database web-scraping