Tag: bigdata

Big data ist ein Konzept, das sich mit Daten-sets, extreme Lautstärken. Fragen können dazu neigen werden, die im Zusammenhang mit der Infrastruktur, algorithmen, Statistik und Daten-Strukturen.

Exception in thread "main" org.apache.hadoop.mapred.InvalidJobConfException: Ausgabe-Verzeichnis nicht gesetzt

Anzahl der Antworten 1 Antworten
Hey, kann u bitte helfen Sie mir bei der Klärung folgender Fehler ? Ich bekomme wenn ich auf der Mapreduce-job fopr einfügen von Daten in hbase-Tabellen aus hdfs-Dateien. mit HFileOutputFormat.class , früher lief ich den gleichen mit

Fehler bei der Installation der R-Paket

Anzahl der Antworten 2 Antworten
BEARBEITEN:1 ich habe schon gesehen, Mit dem Paket rJava auf Win7 64 bit mit R Ich habe Windows 7 64-bit-Maschine mit R 3.1.0, Java 7u67 64-bit installiert. (HINWEIS: ich bin nicht berechtigt, update-R) JAVA_HOME gesetzt ist C:\Program

Url für das HDFS-Dateisystem

Anzahl der Antworten 2 Antworten
Habe ich einige Daten in HDFS /user/Cloudera/Test/*. Ich bin sehr gut in der Lage, um zu sehen, die Datensätze durch ausführen hdfs -dfs -cat Test/*. Nun die gleiche Datei, die ich brauche, es zu Lesen, als der

Nicht-Hadoop-eher ein Netz als ein cluster?

Anzahl der Antworten 1 Antworten
Ich habe gehört, der Begriff "Hadoop-Clusters", aber es scheint zu sein, im Gegensatz zu dem, was mein Verständnis einer "grid" - und "cluster" sind. Meine Verständnis ist, dass ein grid ist ein verteiltes system, bestehend aus 2+

Schwein: Ungültige Feld-Projektion; Projizierte Feld nicht vorhanden ist

Anzahl der Antworten 1 Antworten
describe filter_records; Gibt mir das die unten format: filter_records: {details1: (firstname: chararray,lastname: chararray,age: int,gender: chararray),details2: (firstname: chararray,lastname: chararray,age: int,gender: chararray)} Möchte ich die Anzeige der firstname von beiden details1 und details2. Ich versuchte dies: display_records = FOREACH

Sqoop - Ist es möglich, import-Flachbild-Dateien in HDFS

Anzahl der Antworten 3 Antworten
Ich weiß, dass es möglich ist, zu importieren RDBM die Daten von HDFS über sqoop, aber ich würde gerne wissen, ob es möglich ist, zu importieren, Flachbild-Dateien sowie. Ist es beispielsweise möglich, für den import einer Datei

Wie haben Sie die Gruppe ODER-Klausel in der WHERE-Anweisung mit HIVE

Anzahl der Antworten 3 Antworten
Ich würde gerne die Abfrage von den folgenden (statement1 AND statement2 AND (statement3 OR statement4 )) dies ist mein hive-Abfrage, die ich bestätigt, dass es nicht funktioniert, da es gibt nur anweisung3, und ich weiß, es gibt

Hadoop Pig nicht speichern kann, um einen vorhandenen Ordner

Anzahl der Antworten 1 Antworten
Habe ich einen Ordner erstellt, legen Sie die Ergebnis-Datei von einem Schwein-Prozess mit dem Speichern-Befehl. Es funktioniert beim ersten mal, aber das zweite mal, compains, dass der Ordner bereits vorhanden ist. Was ist die beste Praxis für

So laden große Tabelle, die in tableau zur Visualisierung von Daten?

Anzahl der Antworten 4 Antworten
Ich bin in der Lage zu verbinden tableau mit meiner Datenbank, aber die Größe der Tabelle ist wirklich groß hier. Jedesmal, wenn ich versuche, laden Sie die Tabelle in tableau, es abstürzt, und ich bin nicht in

100 TB Daten auf Mongo DB? Möglich?

Anzahl der Antworten 2 Antworten
Was für eine Art von Architektur, die erforderlich ist zum speichern von 100 TB Daten und Abfragen mit aggregation? Wie viele Knoten? Speicherplatz pro Knoten? Was kann die beste Vorgehensweise sein? Jeden Tag 240GB geschrieben werden, aber

hive semantische Ausnahme beim einfügen der Daten

Anzahl der Antworten 2 Antworten
Erstellte ich eine hive-Tabelle mit ORC. Wenn ich für das einfügen von Daten aus der hive-Konsole funktioniert es perfekt.Aber Wenn ich das einfügen von Daten aus der Jdbc-code.Es wirft hive semantische Ausnahme. Fehler rg.apache.hive.service.cli.HiveSQLException: Fehler beim kompilieren

Memory-limits in der Daten-Tabelle: negative Länge Vektoren sind nicht erlaubt

Anzahl der Antworten 1 Antworten
Ich habe eine Daten-Tabelle mit mehreren social-media-Nutzer und seine/Ihre Anhänger. Die original-Daten-Tabelle hat das folgende format: X.USERID FOLLOWERS 1081 4053807021,2476584389,4713715543, ... Also jede Zeile enthält einen Benutzer zusammen mit seiner/Ihrer ID und einen Vektor von Anhängern (getrennt

Wie um herauszufinden, ob ein Ordner existiert in hadoop oder nicht?

Anzahl der Antworten 2 Antworten
Muss ich finden, wenn die input-Ordner existiert oder nicht, in hadoop . Ich bin mit dem folgenden Befehl das gleiche zu tun hadoop fs -test -d <folder Location> Die Abfrage löst keine Fehler aber auch keine Ausgabe

oracle bigfile-import: unangemessene ioctl für Gerät

Anzahl der Antworten 1 Antworten
Oracle-11G, Linux-mit 200GB Speicherplatz. Über 25GB schon besetzt waren von einigen Dateien. Erhielt ich einen " .dmp " - Datei 50GB und, um den import durchzuführen, habe ich eine bigtablespace mit bigdatafile von 100GB (Ursache, die ich

Entfernen Erster Linie von Großen CSV-Datei?

Anzahl der Antworten 3 Antworten
Wie sollte ich entfernen Sie die erste Zeile in eine große CSV-Datei in python? Ich sah in der bisherigen Lösungen in einem hier war: with open("test.csv",'r') as f: with open("updated_test.csv",'w') as f1: f.next() # skip header line

Wie " big data "Bigdata"?

Anzahl der Antworten 2 Antworten
Wie viel Menge der Daten, die nicht qualifiziert zu sein kategorisiert als Bigdata? Was mit der Größe der Daten kann man entscheiden, dass dies ist die Zeit zu gehen für Technologien wie Hadoop und nutzen Sie die

Erholung der Zuordnung der elastic search

Anzahl der Antworten 2 Antworten
logstash configIch habe meine index auf elasticsearch und durch kibana und haben die hochgeladenen Daten. Das will ich jetzt ändern Sie die Zuordnung für den index aus und ändern Sie einige Felder, die nicht analysiert .Unten ist

Warum die Verwendung von kerberos wenn Sie tun können Authentifizierung und Autorisierung über ldap?

Anzahl der Antworten 1 Antworten
Sind wir debattieren über den Einsatz von kerberos in big-data-cluster, die wir haben. Unser admin will sich für die Verwendung von ldap für die Authentifizierung und Autorisierung. Ich schaute ins internet und erhielt gemischte Antwort, aber es

dabei PCA auf sehr große Datensätze in R

Anzahl der Antworten 2 Antworten
Ich habe eine sehr große Trainings-set (~2Gb) in eine CSV-Datei. Die Datei ist zu groß zu Lesen direkt in den Speicher (read.csv() bringt den computer zum Stillstand) und ich möchte, um die Größe des Daten-Datei mithilfe der

ERROR-tool.BaseSqoopTool: Fehler beim Parsen der Argumente für den job: Sqoop ich habe versucht einen Auftrag zu erstellen, in sqoop, aber der folgende Fehler aufgetreten

Anzahl der Antworten 3 Antworten
sqoop job --create myjob --import --connect "jdbc:mysql://localhost/classicmodels" --username root --password 123 --table customers -m 1 --taget-dir /manoj280217/sqoop Fehler: 17/02/28 08:56:18 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6 17/02/28 08:56:18 ERROR tool.BaseSqoopTool: Error parsing arguments for job: 17/02/28 08:56:18

Erstellen von hive-Tabelle Fehler zum laden von Twitter-Daten

Anzahl der Antworten 2 Antworten
Ich versuche zu erstellen, die externe Tabelle und versuchen zu laden, twitter-Daten in die Tabelle. Beim erstellen der Tabelle, erhalte ich die folgende Fehlermeldung und konnte nicht in der Lage, um den Fehler zu ermitteln. hive> ADD

Exportieren große Menge von Daten von Cassandra zu CSV

Anzahl der Antworten 2 Antworten
Bin ich mit Cassandra 2.0.9 für Shop-sehr große Mengen an Daten, sagen wir mal 100Gb, in eine Spalte-Familie. Ich möchte den export dieser Daten im CSV-Format in eine schnelle Art und Weise. Ich habe versucht: sstable2json -

Senden KafkaProducer vom lokalen Rechner auf hortonworks sandbox auf virtualbox

Anzahl der Antworten 1 Antworten
Habe ich ein wirklich einfaches Produzent, der läuft bei mir über eclipse auf meinem lokalen windows-Rechner... Was ich wirklich will, ist eine Nachricht über einen auf kafka, so dass ich in der Lage, um die broker, durch

Umwandlung im HDF5 in csv-oder tsv-Dateien

Anzahl der Antworten 4 Antworten
Ich bin auf der Suche nach einem Beispielcode, die konvertieren kann .h5-Dateien in csv-oder tsv. Ich gelesen zu haben .h5 und Ausgang auf csv-oder tsv. Beispiel-code wäre sehr geschätzt werden,bitte helfen, wie muss ich stecken, es für

erstellen partition in der externen Tabelle in hive

Anzahl der Antworten 3 Antworten
Habe ich erfolgreich erstellt und Hinzugefügt Dynamische Partitionen in einem Interne Tabelle im hive. D. H. durch mithilfe der folgenden Schritte: 1-schuf eine Quelle der Tabelle 2-geladen-Daten von der lokalen in die Quell-Tabelle 3 - erstellt eine

Wie wird ein join in Elasticsearch — oder auf Lucene-Ebene

Anzahl der Antworten 2 Antworten
Was ist der beste Weg, um die Entsprechung einer SQL join-in Elasticsearch? Ich habe eine SQL-setup mit zwei großen Tabellen: Personen und Gegenstände. Eine Person kann eigene viele Elemente. Sowohl Personen-und Item-Zeilen kann sich ändern (D. H.

Wie zum kopieren von Daten von einem HDFS zu einem anderen HDFS?

Anzahl der Antworten 6 Antworten
Habe ich zwei HDFS-setup und kopieren möchten (nicht migrieren oder zu verschieben) einige Tabellen aus HDFS1 zu HDFS2. Wie zum kopieren von Daten von einem HDFS zu einem anderen HDFS? Ist es möglich über Sqoop oder andere

Wie zu subtrahieren Monate aus Datum in HIVE

Anzahl der Antworten 3 Antworten
Ich bin auf der Suche nach einer Methode, die mir hilft, subtrahieren Monate von einem Datum in HIVE Habe ich ein Datum 2015-02-01. Jetzt muss ich subtrahieren von 2 Monaten ab diesem Datum, so dass Ergebnis sollte

sklearn und große datasets

Anzahl der Antworten 4 Antworten
Ich habe einen Datensatz von 22 GB. Ich möchte, um es zu verarbeiten auf meinem laptop. Natürlich kann ich nicht laden, es im Gedächtnis. Ich benutze eine Menge sklearn aber für viel kleinere Datensätze. In diesen Situationen

Importieren, große CSV nach Oracle via TOAD

Anzahl der Antworten 1 Antworten
Ich habe eine große CSV-Datei (um 620,000,000 Datensätze) die ich brauche, um den import in Oracle über die Kröte. Es gibt aus dem Speicher. Ich in der Lage gewesen, diese aufzuteilen in .xls-Dateien mit dem einzelnen Blatt,

clustering von sehr großen Datensätzen in R

Anzahl der Antworten 3 Antworten
Ich habe einen Datensatz, bestehend aus 70.000 numerische Werte, die für Entfernungen im Bereich von 0 bis 50, und ich möchte cluster diese zahlen, jedoch, wenn ich versuche, die klassischen clustering-Ansatz, dann würde ich zum einrichten 70,000X70,000

Die Eröffnung eines HDFS-Datei im browser

Anzahl der Antworten 1 Antworten
Ich versuche, eine Datei zu öffnen (in der HDFS-Verzeichnis: /user/input/Summary.txt) in meinem browser unter der folgenden URL: hdfs://localhost:8020/user/input/Summary.txt aber ich bin immer ein Fehler in meinem firefox-browser: Firefox doesn't know how to open this address, because the

Laden eine kleine Stichprobe aus einer großen csv-Datei in R-data frame

Anzahl der Antworten 4 Antworten
Die csv-Datei verarbeitet werden, passt nicht in den Speicher. Wie kann man Lesen ~20K zufällige Linien von es grundlegende Statistiken zu den ausgewählten Daten-frame? Ein Vorherige Antwort InformationsquelleAutor P.Escondido | 2014-03-07

Was sind die Einschränkungen der Implementierung der MySQL-NDB-Cluster?

Anzahl der Antworten 2 Antworten
Ich umsetzen will, NDB Cluster für MySQL Cluster 6. Ich möchte es für sehr große Daten-Struktur mit mindestens 2 Millionen Datensätze. Ich wissen will ist, ob es irgendwelche Einschränkungen in der Umsetzung von NDB cluster. Zum Beispiel,

Gibt es eine maximale Größe von string-Datentyp in den Bienenstock?

Anzahl der Antworten 1 Antworten
Google eine Tonne, aber haben es nicht gefunden überall. Oder bedeutet das, dass Hive unterstützen können beliebige große string-Datentyp, solange cluster ist erlaubt? Wenn ja, wo kann ich finden, was ist die größte Größe der string-Datentyp, dass

Können große datasets verwendet werden, die mit Excel 2013?

Anzahl der Antworten 3 Antworten
Die ich gelesen habe an mehreren stellen, dass Excel 2013 (64-bit) hat die Fähigkeit zu öffnen, die größere Datenmengen, mit mehr Zeilen als vorher. Doch, meine Grenzen zu sein scheinen rechts, wo Sie waren, mit 2010. Bekomme

Alter column data-type-in-Hive -

Anzahl der Antworten 3 Antworten
müssen wir ändern, um die Tabelle der Spalte Datentyp von string in date. Während versuche, erhalte die folgende Fehlermeldung. Könnten Sie bitte helfen. hive - > beschreiben sales_staging; OK cust_id string prod_num string qty int sale_date string

Client not found in kerberos-Datenbank während der Initialisierung der kadmin-Schnittstelle

Anzahl der Antworten 1 Antworten
Wenn ich versuchte, Sie zu erstellen, AUFTRAGGEBER ("prabhat/admin") in Kerberos (Kadmind-Server) mit dem addprinc Befehl. kadmin -q "addprinc prabhat/admin" Bekam ich die folgende Fehlermeldung Die Authentifizierung als AUFTRAGGEBER, prabhat/admin mit Passwort. Kadmin: client not found in kerberos-Datenbank

Gewusst wie: anzeigen von Apache Parkett-Datei in Windows?

Anzahl der Antworten 3 Antworten
Konnte ich nicht finden keine plain-Englisch Erklärungen zu Apache Parkett-Dateien. Wie: Was sind Sie? Brauche ich HDFS-Hadoop oder zum anzeigen/erstellen/speichern? Wie kann ich erstellen, Parkett-Dateien? Wie kann ich Parkett-Dateien? Jede Hilfe in Bezug auf diese Fragen sehr

Dynamodb-Abfrage-Fehler - Abfrage-key-Zustand, nicht unterstützt

Anzahl der Antworten 1 Antworten
Ich versuche Abfrage meiner dynamodb-Tabelle, um feed_guid und status_id = 1. Aber es gibt Abfrage-key-Bedingung wird nicht unterstützt Fehler. Finden Sie mein schema für die Tabelle und Abfrage. $result =$dynamodbClient->createTable(array( 'TableName' => 'feed', 'AttributeDefinitions' => array( array('AttributeName'

import komplexer Json-Daten zu Bienenkorb

Anzahl der Antworten 2 Antworten
Einem kleinen Löffel Fütterung erforderlich, gewusst wie: importieren von komplexen json-in-Struktur. Json-Datei im format:{"some-headers":"", "dump":[{"item-id":"item-1"},{"item-id":"item-2"},...]}. Hive zu haben Felder, die unter gegeben dump. Json-Datei Größe, wie jetzt ,ist nicht mehr als 200MB, aber da es ein dump,

Ich brauche ein Bienenstock Beispiel-Projekte für die Praxis. Wie arbeiten große Tabellen? Wie können wir tatsächlich umsetzen Abfragen in Hive?

Anzahl der Antworten 1 Antworten
Ich bin frischer in Hadoop. Ich möchte ein Projekt auf Hive. Ich habe die grundlegenden Kenntnisse der Struktur. Aber ich möchte wissen, wie das laden großer Tabellen und Abfragen ausführen. Bitte teilen Sie jedem Projekt mit details.

Nicht instanziieren org.apache.hadoop.hive.ql.die Metadaten.SessionHiveMetaStoreClient (Ubuntu)

Anzahl der Antworten 2 Antworten
Habe ich erfolgreich installiert, Java, Hadoop, MySQL. Ich bin immer diese Fehlermeldung beim ausführen von hive. Ich war immer die Datei Erlaubnis Fehler, bevor Sie die behoben haben, indem Sie die metastore_db Ordner unter hive-Ordner auf 777

Wie man alle Tabellen-Definitionen in einer Datenbank im Bienenstock?

Anzahl der Antworten 2 Antworten
Ich bin auf der Suche, um alle Tabellen-Definitionen im Hive. Ich weiß, dass das für single-table-definition, die ich verwenden können, so etwas wie - describe <<table_name>> describe extended <<table_name>> Aber ich konnte nicht einen Weg finden, um

MySQL Cluster vs. Hadoop für die Handhabung von big data

Anzahl der Antworten 3 Antworten
Möchte ich wissen die Vorteile/Nachteile der Benutzung einer MySQL-Cluster-und mit dem Hadoop-framework. Was ist die bessere Lösung. Ich würde gerne Lesen, deine Meinung. Ich denke, dass die Vorteile der Verwendung eines MySQL-Clusters sind: hohe Verfügbarkeit gute Skalierbarkeit

Casting-Termin in Talend Data Integration

Anzahl der Antworten 2 Antworten
In einem Datenfluss von einer Tabelle zu einer anderen, möchte ich warf einen Termin. Datum lässt die Quell-Tabelle als string in diesem format: "2009-01-05 00:00:00:000 + 01:00". Ich habe versucht, zu konvertieren, das auf ein Datum mit

Wie zu verwenden NICHT IM Hive

Anzahl der Antworten 1 Antworten
Angenommen ich habe 2 Tabellen, wie unten dargestellt. Nun, wenn ich erreichen möchte Ergebnis, das sql wird geben mit, insert into B where id not in(select id from A) die insert - 3 George in Tabelle B.

Gibt es eine Möglichkeit zum transponieren von Daten in Hive?

Anzahl der Antworten 2 Antworten
Können Daten in Hive umgesetzt werden? Wie in den Zeilen zu Spalten und Spalten werden die Zeilen? Wenn es keine Funktion gibt, gerade nach oben, gibt es einen Weg, es zu tun in ein paar Schritten? Ich

Speichern Schwein Ergebnis in eine text-Datei

Anzahl der Antworten 2 Antworten
Hallo stackoverflow Gemeinschaft; ich bin Total neu zu Schwein, ich will speichert das Ergebnis in einer text-Datei und nennen Sie es, wie ich will. ist es möglich dies mit SHOP-Funktion. Mein code: a = LOAD 'example.csv' USING

multithreading für Daten von pandas dataframe

Anzahl der Antworten 1 Antworten
Ich bin kämpfen, um das multithreading zu verwenden für die Berechnung der Verwandtschaft zwischen der Liste der Kunden, die über verschiedene shopping-Elemente, die auf Ihre Körbe. Also ich habe ein Pandabären-Daten-frame besteht aus 1.000 Kunden, was bedeutet,