Tag: data-analysis

Daten-Analyse besteht darin, die Bedeutung und die Erkenntnisse aus den rohen Daten. Es beinhaltet Methoden und algorithmen, die prüfen, bereinigen, transformieren und modellieren die Daten, um Schlussfolgerungen zu ziehen.

Wie gehen Sie mit fehlenden Daten mithilfe von numpy/scipy?

Anzahl der Antworten 4 Antworten
Eines der Dinge, die ich mit den meisten in der Datenbereinigung fehlende Werte. R beschäftigt sich mit diesem sowie mit dem "NA" fehlende Daten label. In python, es scheint, dass ich ' ll haben, um mit maskierten

Wie group by mehrere Spalten und transponieren in Hive

Anzahl der Antworten 1 Antworten
Habe ich einige Daten, die ich will für die Gruppierung nach mehreren Spalten, führen Sie eine Aggregatfunktion auf, und dann transponieren in verschiedene Spalten mit Hive. Beispielsweise angesichts dieser Eingang Eingang: hr type value 01 a 10

Wie man die Werte der jeweiligen Funktion aus sklearn.feature_selection.SelectKBest?

Anzahl der Antworten 1 Antworten
Ich versuche, die Punkte aller features von my data set. file_data = numpy.genfromtxt(input_file) y = file_data[:,-1] X = file_data[:,0:-1] x_new = SelectKBest(chi2, k='all').fit_transform(X,y) Bevor die erste Zeile von X hatte die "Feature-Namen" im string-format, aber ich war

Objekt pandas hat kein Attribut name Serie

Anzahl der Antworten 3 Antworten
import pandas as pd numbers = {1,2,3,4,5} ser = pd.Series(numbers) print ser Schreibe ich diesen code in python für pandas-Serie. aber es gibt diese "AttributeError: 'module' Objekt hat kein Attribut ' - Serie,'" bitte helfen Sie mir

wie um zu überprüfen, ob ein Wert vorhanden ist, in einen dataframe

Anzahl der Antworten 1 Antworten
Hallo ich versuche den Namen der Spalte ein dataframe enthält ein bestimmtes Wort, zB: ich habe einen dataframe, NA good employee Not available best employer not required well manager not eligible super reportee my_word=["well"] wie um zu

was wäre eine gute csv-Daten-Analyse-tool/framework

Anzahl der Antworten 3 Antworten
gibt es gutes Werkzeug zu analysieren, die csv-Daten-Dateien. ist es einfach zu bedienen, open-source-Sache zur Anzeige von Daten aus csv-Dateien? (bitte nicht erwähnen, excel...). am wichtigsten ist ein einfacher Datei-import (oder vielleicht Ordner Auslesen) Mechanismus. Sie versuchen

Finden Sie eine Durchschnittliche, aber ignorieren jede null in einer Liste [Python]

Anzahl der Antworten 4 Antworten
Ich habe eine text-Datei mit Temperaturdaten, die wie folgt aussieht: 3438012868.0 0.0 21.7 22.6 22.5 22.5 21.2 3438012875.0 0.0 21.6 22.6 22.5 22.5 21.2 3438012881.9 0.0 21.7 22.5 22.5 22.5 21.2 3438012888.9 0.0 21.6 22.6 22.5 22.5

groupby mehrere Werte, und Plotten Sie die Ergebnisse

Anzahl der Antworten 3 Antworten
Ich bin mit ein paar Daten auf Fungizid-Nutzung, das ist das Jahr, Fungizid, verwendete Menge, zusammen mit einigen irrelevante Spalten in Pandas DataFrame. Es sieht etwas wie: Year, State, Fungicide, Value 2011, California, A, 12879 2011, California,

Power BI - DAX für den Rolling Sum (Laufende Summe) nicht funktioniert,

Anzahl der Antworten 2 Antworten
Ich versuche zu berechnen, die rolling Summe in der MS Power BI-Anwendung mit DAX. Ich habe die folgende Tabelle und das hinzufügen einer weiteren Spalte der Tabelle zeigt die laufende Summe der [Stunden] Spalte, Aber ich bin

Immer wahrscheinlichkeitsdichte der Daten

Anzahl der Antworten 3 Antworten
Ich analysieren muss, um einige Daten über internet-Sitzungen für eine DSL-Leitung. Ich wollte schauen, wie die Laufzeiten verteilt sind. Ich dachte ein einfacher Weg, dies zu tun wäre, zu beginnen, indem Sie eine Wahrscheinlichkeits-Dichte-plot der Dauer aller

R randomForest für die Einstufung

Anzahl der Antworten 5 Antworten
Ich versuche zu tun, Klassifikation mit randomForest, aber ich bin immer wieder eine Fehlermeldung, für die es anscheinend keine offensichtliche Lösung (randomForest hat gut funktioniert für mich tun, regression in die Vergangenheit). Habe ich eingefügt, mein code

Matlab-Kreuz-Korrelation-vs-Korrelationskoeffizient Frage

Anzahl der Antworten 2 Antworten
Ich Schreibe ein Programm in C++, aber unter Verwendung von Daten aus matlab mit Kreuz-Korrelation. Ich verstehe, dass, wenn ich eine Korrelation auf 2 Sätze von Daten gibt es mir einen einzigen Korrelationskoeffizienten Zahl, die angibt, ob

Mit einem denke, mit scipy curve_fit

Anzahl der Antworten 1 Antworten
Ich habe eine Funktion, ich möchte Kurvenanpassung mit dem wissen der Fehler der Kurvenanpassung. Ich versuche, scipy.optimieren.curve_fit dies zu tun, aber bin knapp in problem. Jetzt mein code ist: import numpy as np import matplotlib.pyplot as plt

Plot viele Histogramme mit einer for-Schleife in R

Anzahl der Antworten 3 Antworten
Habe ich eine .csv-Datei mit Daten wie diesen: RI Na Mg Al Si K Ca Ba Fe Type 1 1.51793 12.79 3.50 1.12 73.03 0.64 8.77 0.00 0.00 BWF 2 1.51643 12.16 3.52 1.35 72.89 0.57 8.53

Wie kann ich konvertieren von Json-Daten-frame in R

Anzahl der Antworten 1 Antworten
Möchte ich meine konvertieren der json-Daten zu den Daten-frame in R. Hier ist, was ich bisher getan habe: library("rjson") result <- fromJSON(file ="mypath/data.json") json_data_frame <- as.data.frame(result) Jedoch, kommt es zu einem Fehler wie diesem: Fehler in den

how to get rid von pandas Umwandlung von großen zahlen in excel-sheet "exponentiell"?

Anzahl der Antworten 1 Antworten
In der excel-Tabelle habe ich zwei Spalten mit großen zahlen. Aber wenn ich die excel-Datei mit read_excel() und Anzeige der dataframe, diese zwei Spalten gedruckt werden, die im wissenschaftlichen format mit exponentiell. Wie können Sie loszuwerden, dieses

Random Number Generation auf den Arbeitsspeicher aus einer Verteilung mit VBA

Anzahl der Antworten 2 Antworten
Ich will Zufallszahlen aus einem ausgewählten Vertrieb in VBA (Excel 2007). Ich bin derzeit mit den Analyse-Funktionen mit dem folgenden code: Application.Run "ATPVBAEN.XLAM!Random", "", A, B, C, D, E, F Wo A = how many variables that

Wie plot zwei DataFrame auf derselben Grafik zum Vergleich

Anzahl der Antworten 2 Antworten
Habe ich zwei DataFrames (trail1 und trail2) mit den folgenden Spalten: Genre -, Stadt -, und Anzahl Verkauft. Jetzt will ich erstellen ein Balkendiagramm der Daten-sets für eine side-by-side-Vergleich von Genre vs. Gesamtzahl Verkauft. Für jedes genre,

X-Achse Abständen(ticks) für die Graphen der Pandas DataFrame

Anzahl der Antworten 1 Antworten
Ich versuche mit den Zecken (Zeit -) Schritte auf der x-Achse auf meinem matplotlib graph eines Pandas DataFrame. Mein Ziel ist es, mit der ersten Spalte der DataFrame zu verwenden, als die Zecken, aber ich habe nicht

So legen Sie die Anzahl der Zeilen ein pandas dataframe haben?

Anzahl der Antworten 3 Antworten
Habe ich ein Pandas dataframe und ich bin immer wieder Anhängen einer Zeile an Daten pro Sekunde als unten. df.loc[time.strftime("%Y-%m-%d %H:%M:%S")] = [reading1, reading2, reading3] >>>df sensor1 sensor2 sensor3 2015-04-14 08:50:23 5.4 5.6 5.7 2015-04-14 08:50:24 5.5

Python : Wie Multinomiale Logistische Regression mit SKlearn

Anzahl der Antworten 2 Antworten
Ich habe einen test-Datensatz und Zug dataset als unten. Ich habe ein Beispiel-Daten mit min Platten, aber meine Daten hat als 1000 Datensätze. Hier E ist mein Ziel-variable, die ich brauche, um vorherzusagen, mit Hilfe eines Algorithmus.

Wie zu beheben AttributeError: '- Serie,' Objekt hat kein Attribut 'finden'?

Anzahl der Antworten 2 Antworten
Ich versuche zu spielen mit einigen online-Daten, und mit einigen Schwierigkeiten zeichnen Sie es durch ein 'Attribut' Fehler in der plot-Funktion # Reading data from an online data sets import pandas as pd import requests, zipfile, StringIO

Die Verarbeitung einer sehr großen Datenmenge in python - Speicher Fehler

Anzahl der Antworten 1 Antworten
Ich versuche zu verarbeiten, Daten aus einer csv-Datei mithilfe von csv-Modul in python. es gibt über 50 Spalten & 401125 Zeilen in diesem. Ich habe folgende code-Stück zu setzen, dass die Daten in eine Liste csv_file_object =

Python: pandas merge mehrere dataframes

Anzahl der Antworten 6 Antworten
Habe ich verschiedene dataframes und müssen verschmelzen Sie zusammen, basierend auf der Spalte Datum. Wenn ich nur zwei dataframes, die ich verwenden könnte df1.merge(df2, on='date'), es zu tun mit drei dataframes, ich benutze df1.merge(df2.merge(df3, on='date'), on='date'), aber

Wie ändere ich eine einzelne index-Wert in pandas dataframe?

Anzahl der Antworten 5 Antworten
energy.loc['Republic of Korea'] Möchte ich ändern Sie den Wert von index aus 'Republik Korea' , 'Südkorea'. Aber der dataframe ist zu groß und es ist nicht möglich, ändern Sie jeden Wert des index. Wie kann ich ändern,

Google Analytics trackevent in single-page-web-app

Anzahl der Antworten 3 Antworten
Was ist der beste (meist praktische) Möglichkeit zur Verwendung von Google Analytics trackevent für die Verfolgung von "Seitenaufrufe" in einer single-page-web-app? trackevent nimmt vier Argumente: KATEGORIE, AKTION, LABEL, WERT. Die letzten beiden sind optional. Welches Feld sollte

Wie finden Sie das nächste Wort ein Vektor mit word2vec

Anzahl der Antworten 3 Antworten
Ich habe gerade angefangen mit Word2vec und ich Frage mich, wie finden wir das nächste Wort zu einem Vektor angenommen. Ich habe dieses Vektors ist die Durchschnittliche Vektor für eine Reihe von Vektoren: array([-0.00449447, -0.00310097, 0.02421786, ...],

Analyse der Daten mit JavaScript?

Anzahl der Antworten 1 Antworten
Heute meine Daten-Analyse-routine wäre so etwas wie die folgenden: die schwere Arbeit, die mit entweder R, Julia oder Python und dann die Anzeige im web mit JavaScript (zum Beispiel durch D3.js). Meine anfängliche Schwerpunkt mit JS war

Plotten Sie die Ergebnisse der Pandas GroupBy

Anzahl der Antworten 1 Antworten
Bin ich angefangen zu lernen, Pandas und bin auf der Suche nach den meisten Pythonic (oder panda-thonic?) Möglichkeiten, das zu tun, bestimmte Aufgaben. Nehmen wir an, wir haben einen DataFrame mit den Spalten A, B und C.

Mit QUARTIL in einer Excel-pivot-Tabelle zusammenfassen Daten von sub-Populationen

Anzahl der Antworten 3 Antworten
Ich habe eine große Tabelle von Daten in einer Excel-Tabelle, die sich im wesentlichen als eine Sammlung von Werten für Individuen identifiziert, die zu verschiedenen Subpopulationen: IndivID SubPopID Value 1 A 33.56 2 E 42.31 3 D

Warum verbessert eine Hot-Encoding die Leistung beim maschinellen Lernen?

Anzahl der Antworten 2 Antworten
Habe ich bemerkt, dass, wenn Ein Hot-Codierung verwendet wird, auf einen bestimmten Datensatz (einer matrix), und als Trainingsdaten für das lernen von algorithmen, es gibt deutlich bessere Ergebnisse hinsichtlich der Vorhersage-Genauigkeit im Vergleich zu der ursprünglichen matrix

Anpassen des Polynommodells an Daten in R

Anzahl der Antworten 4 Antworten
Ich habe gelesen, die Antworten auf diese Frage und Sie sind ziemlich hilfreich, aber ich brauche Hilfe, besonders in der R. Habe ich ein Beispiel-Datensatz in R wie folgt: x <- c(32,64,96,118,126,144,152.5,158) y <- c(99.5,104.8,108.5,100,86,64,35.3,15) Will ich

R und SPSS Unterschied

Anzahl der Antworten 11 Antworten
Werde ich die Analyse von riesigen Mengen von Netzwerk-traffic-related data in Kürze und wird vor der Verarbeitung der Daten, um Sie zu analysieren. Ich habe festgestellt, dass R und SPSS sind unter den beliebtesten tools für die

Python-Pandas verbinden Datenfelder im Index

Anzahl der Antworten 1 Antworten
Ich versuche zu join dataframe in der gleichen Spalte "Datum" der code ist wie folgt: import pandas as pd from datetime import datetime df_train_csv = pd.read_csv('./train.csv',parse_dates=['Date'],index_col='Date') start = datetime(2010, 2, 5) end = datetime(2012, 10, 26) df_train_fly

Peak-Signal-Erkennung in Echtzeit-Zeitreihendaten

Anzahl der Antworten 17 Antworten
Update: Die beste Leistung der Algorithmus so weit dies ist eine. Diese Frage untersucht, robuster algorithmen für die Erkennung von plötzlichen Spitzen in der real-time-timeseries Daten. Betrachten Sie den folgenden Datensatz: p = [1 1 1.1 1

Wie sortiere ich einen Datenrahmen in Python-Pandas nach zwei oder mehr Spalten?

Anzahl der Antworten 3 Antworten
Angenommen ich habe ein data-Frame mit den Spalten a b & c, ich möchte, um die Daten zu Sortieren-Frame nach Spalte b aufsteigend und nach Spalte c absteigend, wie mache ich das? InformationsquelleAutor der Frage Rakesh Adhikesavan

Wie summiere ich Werte in einer Spalte, die einer bestimmten Bedingung mit Pandas entsprechen?

Anzahl der Antworten 1 Antworten
Angenommen ich habe eine Spalte in etwa so: a b 1 5 1 7 2 3 1 3 2 5 Möchte ich die Summe der Werte für b wo a = 1 zum Beispiel. Dies würde mir