Tag: distributed-computing
die Verwendung von mehr als einem computer, die miteinander verbunden sind, mit einer Kommunikationsverbindung zur Durchführung einer gemeinsamen Aufgabe.
4
Antworten
Ich versuche zu verstehen, in welchem Szenario sollte ich wählen Sie eine service-registry, die über einen load-balancer. Aus meinem Verständnis beide Lösungen sind für die gleiche Funktionalität. Zum Beispiel, wenn wir überlegen, Konsul.io als eine feature-Liste wir
4
Antworten
Ich möchte erstellen Sie eine verteilte Anwendungen auf der JVM, die hat eine Anzahl von Knoten, und die Notwendigkeit, eine Bibliothek, die es mir erlauben: Verwalten von cluster/grid-Mitgliedschaft, d.h. ich möchte Benachrichtigungen erhalten Sie auf leave/join Verwalten
3
Antworten
Möchte ich nutzen Ehcache replizierten cache, zunächst als backend Hibernate second level cache, second als Zwischenspeicher für alle Daten. Weiß ich, wie eine verteilte Caches wie memcached arbeitet, und ich weiß, es kann skalieren, um große Cluster,
1
Antworten
Ich habe gehört, der Begriff "Hadoop-Clusters", aber es scheint zu sein, im Gegensatz zu dem, was mein Verständnis einer "grid" - und "cluster" sind. Meine Verständnis ist, dass ein grid ist ein verteiltes system, bestehend aus 2+
4
Antworten
Arbeite ich an einem web-crawler, dass die Indizes der Seiten, die nicht indiziert werden sollen. Mein Erster Versuch: Ich schrieb eine c# - crawler, der geht durch jede Seite und lädt Sie herunter. Dies führte zu meiner
1
Antworten
Ich verstehe, dass Sie können senden Sie einzelne Dateien als Abhängigkeiten mit Spark Python-Programme. Aber was ist mit vollwertigen Bibliotheken (z.B. numpy)? Tut Funke eine Möglichkeit haben, verwenden Sie eine bereitgestellte Paket-manager (z.B. pip) zum installieren von
2
Antworten
Wie kann ich ein update DynamoDB-Element mit DynamoDBMapper? Habe ich mehrere Prozesse mit der DynamoDB-Tabelle, so erhalten Sie + speichern erstellen Inkonsistenz. Ich kann nicht finden, das Verfahren zum aktualisieren des Elements, das mit DynamoDBMapper. InformationsquelleAutor meeza
1
Antworten
Lief ich in diese Zeile in der Apache-Spark source code val (gradientSum, lossSum, miniBatchSize) = data .sample(false, miniBatchFraction, 42 + i) .treeAggregate((BDV.zeros[Double](n), 0.0, 0L))( seqOp = (c, v) => { //c: (grad, loss, count), v: (label, features)
2
Antworten
Gibt es Auswirkungen auf die Leistung, wenn ich collectAsMap auf meine RDD statt rdd.sammeln().toMap ? Ich habe einen Schlüssel-Wert rdd und ich konvertieren möchten, um HashMap so weit ich weiß, collect() nicht effizient auf große Datensätze, wie
1
Antworten
Zurzeit arbeite ich mit Java-Sockets. Erstellt habe ich eine server-side-code-und client-Seite code transfer file über socket. Ich habe erfolgreich übertragen der Dateien vom client zum server mit dem gleichen system, aber wenn ich versuchte, mit der die
4
Antworten
Entwickle ich eine Anwendung, wo ich verteilen müssen eine Reihe von Aufgaben, die über einen potenziell sehr großen cluster von verschiedenen Maschinen. Idealerweise möchte ich eine sehr einfache, idiomatische Weise, dies zu tun in Clojure, z.B. so
1
Antworten
Ich konfiguriert hadoop verwenden von kerberos, funktioniert alles, ich kann surfen hdfs, jobs, etc. Aber fehlgeschlagen http-Authentifizierung. Ich benutze hadoop-0.20.2 in cdh3u2, die unterstützt HTTP SPNEGO. HTTP-Authentifizierung Verwandte Konfigurationen in core-site.xml sind wie folgt: <!-- HTTP web-consoles
7
Antworten
Schrieb ich Folgendes: val a = 1 to 10000 val b = sc.parallelize(a) und es zeigt Fehlermeldung sagen: <console>:12: error: not found: value sc Hilfe? Wo ist sc definiert? sc ie. Spark-Rahmen zur Verfügung gestellt wurde, wenn
2
Antworten
Ich habe eine web-Anwendung geschrieben mit der Feder auf einem jetty-server. wegen der Lastverteilung habe ich zum replizieren von http-Sitzungen und spring-security-Kontexte über den web-Server. Kann jemand mir ein Beispiel, wie man das möglich machen? den mvc-Controller
2
Antworten
Habe ich erstellt unter bat-Datei, um mein RMI server @echo Off set classpath=C:\Program Files\Apache Software Foundation\Tomcat 6.0\webapps\RMI_Server\bin\; set classpath=C:\policy.all; set classpath=C:\Program Files\Apache Software Foundation\Tomcat 6.0\webapps\RMI_Server\log4j-1.2.12.jar; set classpath=C:\Program Files\Apache Software Foundation\Tomcat 6.0\webapps\RMI_Server\log4j-1.2.15.jar; set classpath=C:\Program Files\Apache Software Foundation\Tomcat 6.0\webapps\RMI_Server\log4j.jar;
4
Antworten
Ich bin auf der Suche nach einem python-Paket, das tun können, multiprocessing, nicht nur zwischen verschiedenen Kernen in einem einzigen computer, sondern auch mit einem cluster, verteilt auf mehrere Maschinen. Es gibt eine Menge von verschiedenen Pakete
3
Antworten
Ich würde gerne wissen, wie collectAsMap arbeitet in der Funke. Genauer gesagt würde ich gerne wissen, wo die aggregation der Daten aller Partitionen stattfinden wird? Die aggregation erfolgt entweder im master-oder Arbeiter. Im ersten Fall wird für
6
Antworten
Vor kurzem hatte ich einen spielen, um mit Hadoop und war beeindruckt, es ist Planung, management und reporting von MapReduce-jobs. Es erscheint die Verteilung und Ausführung von neuen Arbeitsplätzen ganz nahtlos, so dass die Entwickler konzentrieren sich
9
Antworten
Ich bin verwirrt zwischen zentraler und dezentraler Datenverarbeitung.Kann einer mir sagen, Unterschiede zwischen zentralisierten und verteilten computing? vielen Dank im Voraus Scheint, es ist off-topic SO, denn es geht nicht um exakte Programmierung problem. InformationsquelleAutor user2884098 |
4
Antworten
Ich bin die Entwicklung einer spring-boot-Anwendung. Seit dem Frühjahr boot erstellt ein .jar-Datei für eine Anwendung. Ich möchte cluster diese spezielle Anwendung auf verschiedene server. Können sagen, ich erstellen eine jar-Datei und lief ein Projekt, dann sollte
3
Antworten
Sagen wir, ich machen ein Java Projekt in Eclipse, 3-10 Klassen und eine davon hat eine main(String args) - Methode, beginnt das ganze Programm und übernimmt 4 Argumente auf der Kommandozeile. Lassen Sie uns auch sagen, dass
3
Antworten
Ich bin die Erkundung verschiedener Architekturen in cluster-computing. Einige der beliebtesten sind: Master-Slave. RPC ... In Master-slave, der normale Weg ist, um eine Maschine als master & eine Reihe von Maschinen, die wie Sklaven controlled by master.
1
Antworten
Ich bin erlernen der parallelen Programmierung durch mich. Ich Frage mich, ob verteiltem Speicher ist immer Multiprozess-und multithread ist immer shared memory? wenn Multiprozess kann sowohl für distributed memory und shared memory? Vielen Dank und Grüße! InformationsquelleAutor
2
Antworten
Ich bin mit den word count Beispiel von hadoop. Im folgenden ist die Fehlermeldung, die ich erhalte: -bash-4.1$ ./hadoop jar /home/chanders/Hadoop/bin/hadoop-examples-0.20.203.0.jar wordcount /usr/temp_hadoop /usr/output Warning: Maximum heap size rounded up to 1024 MB Warning: Maximum heap size
1
Antworten
Den ref sagt: Grenze der Größe der serialisierten Ergebnisse aller Partitionen für jede Spark-Aktion (z.B. sammeln). Sollte mindestens 1M, oder 0 für unbegrenzt. Jobs werden abgebrochen, wenn die Gesamtgröße oberhalb dieser Grenze. Mit einem hohen Grenzwert möglicherweise
2
Antworten
Kopiere ich die pyspark.ml Beispiel aus dem offiziellen Dokument der website: http://spark.apache.org/docs/latest/api/python/pyspark.ml.html#pyspark.ml.Transformer data = [(Vectors.dense([0.0, 0.0]),), (Vectors.dense([1.0, 1.0]),),(Vectors.dense([9.0, 8.0]),), (Vectors.dense([8.0, 9.0]),)] df = spark.createDataFrame(data, ["features"]) kmeans = KMeans(k=2, seed=1) model = kmeans.fit(df) Aber, das obige Beispiel würde
3
Antworten
Den doc von kafka geben einen Ansatz über mit folgenden beschreibt: Einen Consumer-Pro-Thread:Eine einfache option zu geben, ist jeder thread seine eigenen consumer > Instanz. Mein code: public class KafkaConsumerRunner implements Runnable { private final AtomicBoolean closed
3
Antworten
Erste von allen, ich habe eine konzeptionelle Frage, Hat das Wort "verteilt" nur bedeuten, dass die Anwendung auf mehreren Maschinen? oder gibt es andere Möglichkeiten, in denen eine Anwendung betrachtet werden kann, verteilt werden (zum Beispiel, wenn
3
Antworten
Arbeite ich durch die Databricks Beispiel. Das schema für den dataframe aussieht: > parquetDF.printSchema root |-- department: struct (nullable = true) | |-- id: string (nullable = true) | |-- name: string (nullable = true) |-- employees:
1
Antworten
Beide sind definiert als eine Gruppe von Computern, arbeiten zusammen und geben dem Endbenutzer eine Wahrnehmung von einem einzigen computer ausgeführt dahinter. Also, was ist hier der Unterschied? Soweit ich das verstanden habe, ein cluster ist in
2
Antworten
Jemand wissen über die Orte, die in die cloud, wo Sie erstellen können (virtuelle) Maschinen (wie z.B. Amazon EC2) nutzen für Ihre EDV-Aufgaben - Orte, die bieten eine Reihe (mindestens 5-10) freien Maschinen, wenn Sie verwendet werden
4
Antworten
Google Chrome native client wird bald veröffentlicht. http://blog.chromium.org/2011/02/native-client-getting-ready-for-takeoff.html Wäre dies ermöglichen node.js zu werden, laufen im browser ermöglicht verteilte Anwendungen miteinander kommunizieren, ohne Umweg über den server? InformationsquelleAutor Sycren | 2011-02-22
2
Antworten
Szenario Tut jedermann haben alle gute Beispiele für peer-to-peer (p2p) - networking in C++ mit Winsock? Es ist eine Anforderung, die ich für einen Kunden, der speziell braucht, um diese Technologie zu nutzen (Gott weiß warum). Ich
4
Antworten
Was ist Terrakotta? Welche Dienstleistungen bietet es an? Welche Probleme es lösen? Welche anderen Produkte lösen Probleme ähnlich denen, die Terrakotta löst? InformationsquelleAutor der Frage Derek Mahar | 2010-05-03
4
Antworten
Ich bin auf der Suche nach einem Weg, zu zentralisieren die Anmeldung betrifft verteilter software (in Java geschrieben), das wäre ganz einfach, da das system in Frage, hat nur einen server. Aber wenn man bedenkt, dass es
1
Antworten
Ich bin ganz neu für Tierpfleger Hafen, durch die ich komme über aus vergangenen Tagen. Ich stellte mit zookeeper-port keyword auf zwei Anlass: bei der Konfiguration von neo4j db-cluster (link) und während der Ausführung kompiliert voltdb-Katalog (link)
1
Antworten
Kann jemand bitte erklären Sie die folgenden TensorFlow Bedingungen inter_op_parallelism_threads intra_op_parallelism_threads oder, bitte, die links zu der richtigen Quelle mit der Erklärung. Ich führte ein paar tests durch ändern der Parameter, aber die Ergebnisse sind nicht konsistent,
2
Antworten
laut Apache AVRO-Projekt "Avro ist eine Serialisierung system". Sagen Daten-Serialisierung-system, bedeutet es, dass die avro ist ein Produkt oder eine api? ich bin auch nicht aufhören zu wissen, was ein Daten-Serialisierung-system ist? für jetzt, mein Verständnis ist,
3
Antworten
Ich versuche, mit Funke für einige einfache machine-learning-Aufgabe. Ich verwendet pyspark und Funken 1.2.0 zu tun, eine einfache Logistische regression-problem. Ich habe 1,2 Millionen Datensätze für das training und ich Hash-Funktionen, die Datensätze. Wenn ich die Anzahl
3
Antworten
Ich arbeite derzeit an einem Projekt mit Hadoop DFS. Ich merke, es ist keine Suche oder den Befehl "suchen" im Hadoop-Shell. Gibt es eine Möglichkeit suchen und finden eine Datei (z.B. testfile.doc) in Hadoop DFS? Macht Hadoop-Unterstützung
3
Antworten
Entwickle ich eine Anwendung, die verteilt sind, und ich habe eine SQLite-Datenbank, die geteilt werden muss zwischen verteilten Servern. Wenn ich in serverA, und ändern sqlite Zeile, muss diese änderung in den anderen Servern sofort, aber wenn
2
Antworten
Sagen, ich habe ein system verteilen sich auf 3 Knoten und meine Daten verteilt zwischen diesen Knoten. ich habe zum Beispiel einen test.csv-Datei, die vorhanden ist, auf alle 3 Knoten, und es enthält 2 Spalten von: **row
5
Antworten
Vor kurzem habe ich Hinzugefügt einige load-balancing-Funktionen, um ein Stück software, die ich geschrieben habe. Es ist ein Netzwerk-Anwendung, die einige Daten verarbeiten, basiert auf der Eingabe aus einer SQL-Datenbank. Da das Knirschen kann ziemlich intensiv habe
7
Antworten
Gemäß Learning Spark Beachten Sie, dass eine Neupartitionierung der Daten ist eine Recht teure operation. Spark hat auch eine optimierte version neu partitionieren() aufgerufen coalesce() , ermöglicht die Vermeidung von Daten-Bewegung, aber nur, wenn Sie eine Verringerung
6
Antworten
Ich versuche zu finden, eine effektive Art und Weise speichern das Ergebnis meiner Funke Job als csv-Datei. Ich bin mit der Funke mit Hadoop und bisher alle meine Dateien gespeichert werden part-00000. Irgendwelche Ideen, wie man meine
1
Antworten
Habe ich eine einfache Linie: line = "Hello, world" Möchte ich konvertieren es in ein RDD mit nur einem element. Ich habe versucht sc.parallelize(line) Aber es bekommen: sc.parallelize(line).collect() ['H', 'e', 'l', 'l', 'o', ',', ' ', 'w',
5
Antworten
Ich weiß, golang ist sehr gut auf die Parallelität mit der integrierten Unterstützung, aber es scheint zu mir, Sie werden nicht verteilt, was wäre also die framework/Bibliothek erlauben, uns zu schreiben, Erzeuger/Verbraucher-Anwendungen in einer verteilten Umgebung. InformationsquelleAutor
2
Antworten
Habe ich eine Kafka-cluster läuft mit 2 Partitionen. Ich war auf der Suche nach einem Weg, um zu vergrößern die partition bis 3 zählen. Aber ich will nicht zu verlieren, die vorhandenen Nachrichten in das Thema. Ich
2
Antworten
Gibt es eine Möglichkeit zum verketten der Daten von zwei verschiedenen RDDs in der Funke? Voraussetzung ist - ich erstelle zwei intermediate RDDs mit scala, das hat die gleichen Spaltennamen kombinieren müssen diese Ergebnisse sowohl der RDDs
1
Antworten
Stieß ich auf das Konzept der "Starken" Eventual Consistency" . Es soll stärker sein als "Eventual Consistency", aber schwächer als "Starke Konsistenz"? Könnte mir jemand erklären, die Unterschiede zwischen diesen drei Konzepten mit anwendbaren Beispielen? http://en.wikipedia.org/wiki/Eventual_consistency#Strong_Eventual_Consistency http://en.wikipedia.org/wiki/Conflict-free_replicated_data_type