Tag: bigdata
Big data ist ein Konzept, das sich mit Daten-sets, extreme Lautstärken. Fragen können dazu neigen werden, die im Zusammenhang mit der Infrastruktur, algorithmen, Statistik und Daten-Strukturen.
1
Antworten
Hey, kann u bitte helfen Sie mir bei der Klärung folgender Fehler ? Ich bekomme wenn ich auf der Mapreduce-job fopr einfügen von Daten in hbase-Tabellen aus hdfs-Dateien. mit HFileOutputFormat.class , früher lief ich den gleichen mit
2
Antworten
BEARBEITEN:1 ich habe schon gesehen, Mit dem Paket rJava auf Win7 64 bit mit R Ich habe Windows 7 64-bit-Maschine mit R 3.1.0, Java 7u67 64-bit installiert. (HINWEIS: ich bin nicht berechtigt, update-R) JAVA_HOME gesetzt ist C:\Program
2
Antworten
Habe ich einige Daten in HDFS /user/Cloudera/Test/*. Ich bin sehr gut in der Lage, um zu sehen, die Datensätze durch ausführen hdfs -dfs -cat Test/*. Nun die gleiche Datei, die ich brauche, es zu Lesen, als der
1
Antworten
Ich habe gehört, der Begriff "Hadoop-Clusters", aber es scheint zu sein, im Gegensatz zu dem, was mein Verständnis einer "grid" - und "cluster" sind. Meine Verständnis ist, dass ein grid ist ein verteiltes system, bestehend aus 2+
1
Antworten
describe filter_records; Gibt mir das die unten format: filter_records: {details1: (firstname: chararray,lastname: chararray,age: int,gender: chararray),details2: (firstname: chararray,lastname: chararray,age: int,gender: chararray)} Möchte ich die Anzeige der firstname von beiden details1 und details2. Ich versuchte dies: display_records = FOREACH
3
Antworten
Ich weiß, dass es möglich ist, zu importieren RDBM die Daten von HDFS über sqoop, aber ich würde gerne wissen, ob es möglich ist, zu importieren, Flachbild-Dateien sowie. Ist es beispielsweise möglich, für den import einer Datei
3
Antworten
Ich würde gerne die Abfrage von den folgenden (statement1 AND statement2 AND (statement3 OR statement4 )) dies ist mein hive-Abfrage, die ich bestätigt, dass es nicht funktioniert, da es gibt nur anweisung3, und ich weiß, es gibt
1
Antworten
Habe ich einen Ordner erstellt, legen Sie die Ergebnis-Datei von einem Schwein-Prozess mit dem Speichern-Befehl. Es funktioniert beim ersten mal, aber das zweite mal, compains, dass der Ordner bereits vorhanden ist. Was ist die beste Praxis für
4
Antworten
Ich bin in der Lage zu verbinden tableau mit meiner Datenbank, aber die Größe der Tabelle ist wirklich groß hier. Jedesmal, wenn ich versuche, laden Sie die Tabelle in tableau, es abstürzt, und ich bin nicht in
2
Antworten
Was für eine Art von Architektur, die erforderlich ist zum speichern von 100 TB Daten und Abfragen mit aggregation? Wie viele Knoten? Speicherplatz pro Knoten? Was kann die beste Vorgehensweise sein? Jeden Tag 240GB geschrieben werden, aber
2
Antworten
Erstellte ich eine hive-Tabelle mit ORC. Wenn ich für das einfügen von Daten aus der hive-Konsole funktioniert es perfekt.Aber Wenn ich das einfügen von Daten aus der Jdbc-code.Es wirft hive semantische Ausnahme. Fehler rg.apache.hive.service.cli.HiveSQLException: Fehler beim kompilieren
1
Antworten
Ich habe eine Daten-Tabelle mit mehreren social-media-Nutzer und seine/Ihre Anhänger. Die original-Daten-Tabelle hat das folgende format: X.USERID FOLLOWERS 1081 4053807021,2476584389,4713715543, ... Also jede Zeile enthält einen Benutzer zusammen mit seiner/Ihrer ID und einen Vektor von Anhängern (getrennt
2
Antworten
Muss ich finden, wenn die input-Ordner existiert oder nicht, in hadoop . Ich bin mit dem folgenden Befehl das gleiche zu tun hadoop fs -test -d <folder Location> Die Abfrage löst keine Fehler aber auch keine Ausgabe
1
Antworten
Oracle-11G, Linux-mit 200GB Speicherplatz. Über 25GB schon besetzt waren von einigen Dateien. Erhielt ich einen " .dmp " - Datei 50GB und, um den import durchzuführen, habe ich eine bigtablespace mit bigdatafile von 100GB (Ursache, die ich
3
Antworten
Wie sollte ich entfernen Sie die erste Zeile in eine große CSV-Datei in python? Ich sah in der bisherigen Lösungen in einem hier war: with open("test.csv",'r') as f: with open("updated_test.csv",'w') as f1: f.next() # skip header line
2
Antworten
Wie viel Menge der Daten, die nicht qualifiziert zu sein kategorisiert als Bigdata? Was mit der Größe der Daten kann man entscheiden, dass dies ist die Zeit zu gehen für Technologien wie Hadoop und nutzen Sie die
2
Antworten
logstash configIch habe meine index auf elasticsearch und durch kibana und haben die hochgeladenen Daten. Das will ich jetzt ändern Sie die Zuordnung für den index aus und ändern Sie einige Felder, die nicht analysiert .Unten ist
1
Antworten
Sind wir debattieren über den Einsatz von kerberos in big-data-cluster, die wir haben. Unser admin will sich für die Verwendung von ldap für die Authentifizierung und Autorisierung. Ich schaute ins internet und erhielt gemischte Antwort, aber es
2
Antworten
Ich habe eine sehr große Trainings-set (~2Gb) in eine CSV-Datei. Die Datei ist zu groß zu Lesen direkt in den Speicher (read.csv() bringt den computer zum Stillstand) und ich möchte, um die Größe des Daten-Datei mithilfe der
3
Antworten
sqoop job --create myjob --import --connect "jdbc:mysql://localhost/classicmodels" --username root --password 123 --table customers -m 1 --taget-dir /manoj280217/sqoop Fehler: 17/02/28 08:56:18 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6 17/02/28 08:56:18 ERROR tool.BaseSqoopTool: Error parsing arguments for job: 17/02/28 08:56:18
2
Antworten
Ich versuche zu erstellen, die externe Tabelle und versuchen zu laden, twitter-Daten in die Tabelle. Beim erstellen der Tabelle, erhalte ich die folgende Fehlermeldung und konnte nicht in der Lage, um den Fehler zu ermitteln. hive> ADD
2
Antworten
Bin ich mit Cassandra 2.0.9 für Shop-sehr große Mengen an Daten, sagen wir mal 100Gb, in eine Spalte-Familie. Ich möchte den export dieser Daten im CSV-Format in eine schnelle Art und Weise. Ich habe versucht: sstable2json -
1
Antworten
Habe ich ein wirklich einfaches Produzent, der läuft bei mir über eclipse auf meinem lokalen windows-Rechner... Was ich wirklich will, ist eine Nachricht über einen auf kafka, so dass ich in der Lage, um die broker, durch
4
Antworten
Ich bin auf der Suche nach einem Beispielcode, die konvertieren kann .h5-Dateien in csv-oder tsv. Ich gelesen zu haben .h5 und Ausgang auf csv-oder tsv. Beispiel-code wäre sehr geschätzt werden,bitte helfen, wie muss ich stecken, es für
3
Antworten
Habe ich erfolgreich erstellt und Hinzugefügt Dynamische Partitionen in einem Interne Tabelle im hive. D. H. durch mithilfe der folgenden Schritte: 1-schuf eine Quelle der Tabelle 2-geladen-Daten von der lokalen in die Quell-Tabelle 3 - erstellt eine
2
Antworten
Was ist der beste Weg, um die Entsprechung einer SQL join-in Elasticsearch? Ich habe eine SQL-setup mit zwei großen Tabellen: Personen und Gegenstände. Eine Person kann eigene viele Elemente. Sowohl Personen-und Item-Zeilen kann sich ändern (D. H.
6
Antworten
Habe ich zwei HDFS-setup und kopieren möchten (nicht migrieren oder zu verschieben) einige Tabellen aus HDFS1 zu HDFS2. Wie zum kopieren von Daten von einem HDFS zu einem anderen HDFS? Ist es möglich über Sqoop oder andere
3
Antworten
Ich bin auf der Suche nach einer Methode, die mir hilft, subtrahieren Monate von einem Datum in HIVE Habe ich ein Datum 2015-02-01. Jetzt muss ich subtrahieren von 2 Monaten ab diesem Datum, so dass Ergebnis sollte
4
Antworten
Ich habe einen Datensatz von 22 GB. Ich möchte, um es zu verarbeiten auf meinem laptop. Natürlich kann ich nicht laden, es im Gedächtnis. Ich benutze eine Menge sklearn aber für viel kleinere Datensätze. In diesen Situationen
1
Antworten
Ich habe eine große CSV-Datei (um 620,000,000 Datensätze) die ich brauche, um den import in Oracle über die Kröte. Es gibt aus dem Speicher. Ich in der Lage gewesen, diese aufzuteilen in .xls-Dateien mit dem einzelnen Blatt,
3
Antworten
Ich habe einen Datensatz, bestehend aus 70.000 numerische Werte, die für Entfernungen im Bereich von 0 bis 50, und ich möchte cluster diese zahlen, jedoch, wenn ich versuche, die klassischen clustering-Ansatz, dann würde ich zum einrichten 70,000X70,000
1
Antworten
Ich versuche, eine Datei zu öffnen (in der HDFS-Verzeichnis: /user/input/Summary.txt) in meinem browser unter der folgenden URL: hdfs://localhost:8020/user/input/Summary.txt aber ich bin immer ein Fehler in meinem firefox-browser: Firefox doesn't know how to open this address, because the
4
Antworten
Die csv-Datei verarbeitet werden, passt nicht in den Speicher. Wie kann man Lesen ~20K zufällige Linien von es grundlegende Statistiken zu den ausgewählten Daten-frame? Ein Vorherige Antwort InformationsquelleAutor P.Escondido | 2014-03-07
2
Antworten
Ich umsetzen will, NDB Cluster für MySQL Cluster 6. Ich möchte es für sehr große Daten-Struktur mit mindestens 2 Millionen Datensätze. Ich wissen will ist, ob es irgendwelche Einschränkungen in der Umsetzung von NDB cluster. Zum Beispiel,
1
Antworten
Google eine Tonne, aber haben es nicht gefunden überall. Oder bedeutet das, dass Hive unterstützen können beliebige große string-Datentyp, solange cluster ist erlaubt? Wenn ja, wo kann ich finden, was ist die größte Größe der string-Datentyp, dass
3
Antworten
Die ich gelesen habe an mehreren stellen, dass Excel 2013 (64-bit) hat die Fähigkeit zu öffnen, die größere Datenmengen, mit mehr Zeilen als vorher. Doch, meine Grenzen zu sein scheinen rechts, wo Sie waren, mit 2010. Bekomme
3
Antworten
müssen wir ändern, um die Tabelle der Spalte Datentyp von string in date. Während versuche, erhalte die folgende Fehlermeldung. Könnten Sie bitte helfen. hive - > beschreiben sales_staging; OK cust_id string prod_num string qty int sale_date string
1
Antworten
Wenn ich versuchte, Sie zu erstellen, AUFTRAGGEBER ("prabhat/admin") in Kerberos (Kadmind-Server) mit dem addprinc Befehl. kadmin -q "addprinc prabhat/admin" Bekam ich die folgende Fehlermeldung Die Authentifizierung als AUFTRAGGEBER, prabhat/admin mit Passwort. Kadmin: client not found in kerberos-Datenbank
3
Antworten
Konnte ich nicht finden keine plain-Englisch Erklärungen zu Apache Parkett-Dateien. Wie: Was sind Sie? Brauche ich HDFS-Hadoop oder zum anzeigen/erstellen/speichern? Wie kann ich erstellen, Parkett-Dateien? Wie kann ich Parkett-Dateien? Jede Hilfe in Bezug auf diese Fragen sehr
1
Antworten
Ich versuche Abfrage meiner dynamodb-Tabelle, um feed_guid und status_id = 1. Aber es gibt Abfrage-key-Bedingung wird nicht unterstützt Fehler. Finden Sie mein schema für die Tabelle und Abfrage. $result =$dynamodbClient->createTable(array( 'TableName' => 'feed', 'AttributeDefinitions' => array( array('AttributeName'
2
Antworten
Einem kleinen Löffel Fütterung erforderlich, gewusst wie: importieren von komplexen json-in-Struktur. Json-Datei im format:{"some-headers":"", "dump":[{"item-id":"item-1"},{"item-id":"item-2"},...]}. Hive zu haben Felder, die unter gegeben dump. Json-Datei Größe, wie jetzt ,ist nicht mehr als 200MB, aber da es ein dump,
1
Antworten
Ich bin frischer in Hadoop. Ich möchte ein Projekt auf Hive. Ich habe die grundlegenden Kenntnisse der Struktur. Aber ich möchte wissen, wie das laden großer Tabellen und Abfragen ausführen. Bitte teilen Sie jedem Projekt mit details.
2
Antworten
Habe ich erfolgreich installiert, Java, Hadoop, MySQL. Ich bin immer diese Fehlermeldung beim ausführen von hive. Ich war immer die Datei Erlaubnis Fehler, bevor Sie die behoben haben, indem Sie die metastore_db Ordner unter hive-Ordner auf 777
2
Antworten
Ich bin auf der Suche, um alle Tabellen-Definitionen im Hive. Ich weiß, dass das für single-table-definition, die ich verwenden können, so etwas wie - describe <<table_name>> describe extended <<table_name>> Aber ich konnte nicht einen Weg finden, um
3
Antworten
Möchte ich wissen die Vorteile/Nachteile der Benutzung einer MySQL-Cluster-und mit dem Hadoop-framework. Was ist die bessere Lösung. Ich würde gerne Lesen, deine Meinung. Ich denke, dass die Vorteile der Verwendung eines MySQL-Clusters sind: hohe Verfügbarkeit gute Skalierbarkeit
2
Antworten
In einem Datenfluss von einer Tabelle zu einer anderen, möchte ich warf einen Termin. Datum lässt die Quell-Tabelle als string in diesem format: "2009-01-05 00:00:00:000 + 01:00". Ich habe versucht, zu konvertieren, das auf ein Datum mit
1
Antworten
Angenommen ich habe 2 Tabellen, wie unten dargestellt. Nun, wenn ich erreichen möchte Ergebnis, das sql wird geben mit, insert into B where id not in(select id from A) die insert - 3 George in Tabelle B.
2
Antworten
Können Daten in Hive umgesetzt werden? Wie in den Zeilen zu Spalten und Spalten werden die Zeilen? Wenn es keine Funktion gibt, gerade nach oben, gibt es einen Weg, es zu tun in ein paar Schritten? Ich
2
Antworten
Hallo stackoverflow Gemeinschaft; ich bin Total neu zu Schwein, ich will speichert das Ergebnis in einer text-Datei und nennen Sie es, wie ich will. ist es möglich dies mit SHOP-Funktion. Mein code: a = LOAD 'example.csv' USING
1
Antworten
Ich bin kämpfen, um das multithreading zu verwenden für die Berechnung der Verwandtschaft zwischen der Liste der Kunden, die über verschiedene shopping-Elemente, die auf Ihre Körbe. Also ich habe ein Pandabären-Daten-frame besteht aus 1.000 Kunden, was bedeutet,