Schnell Oracle Wählen Sie [Große Datenmengen]

Ich habe ein Projekt wobei ich lese riesige Mengen von Daten aus einer Oracle-Datenbank aus Java.

Habe ich das Gefühl, dass die Anwendung, die wir schreiben, die gehen, um die Daten weit schneller, als es uns gegeben mit single threaded SELECT-Abfrage und so habe ich versucht, die Forschung schneller Weise der Gewinnung der Daten.

Hat jemand alles haben, was ich Lesen könnte, das würde helfen, mich mit meinem Schicksal?

Definieren Sie riesig. Wie viele Zeilen? Wie viele bytes pro Zeile? Sind Sie zu Lesen LONG, BLOB-oder CLOB-Daten? Ist es eine komplizierte join beteiligt? Wie schnell können die consumer-Anwendung werden die Daten verarbeitet? Haben Sie wirklich eine Notlage oder sind Sie sich Gedanken ein problem, das nicht existiert?

InformationsquelleAutor Henry B | 2010-02-25

3

Haben Sie noch nicht, die uns eine Menge Informationen darüber, warum es erforderlich werden, um "riesige Datenmengen", in der Java-Anwendung statt, die Verarbeitung der auf der Datenbank-Seite. Obwohl es Ausnahmen geben kann, in der Regel ist dieses signal zu re-denken, das design. Als eine Allgemeine Regel mit Oracle ist es am effektivsten zu tun, wie viel Arbeit, wie Sie können mit reinen set-Operationen (SQL), gefolgt von verfahrenstechnischen Verarbeitung mit dem rdbms-engine (PL/SQL), bevor Sie bringen Ergebnisse zurück an die client-Anwendung.
- Leider ist aufgrund der Natur unseres Systems müssen wir alle Informationen, bevor die Verarbeitung durchgeführt werden kann (aggregation über viele verschiedene Systeme im Wert von Daten, nicht von oracle). Ich werde sicherlich in Erwägung ziehen, einige Verarbeitung mit gespeicherten Prozeduren, aber ich lese in der Mehrheit der Daten.
- OK, klingt wie eine etwas spezielle situation, aber Sie sollten einige Tests, um zu zeigen, dass Oracle Ergebnismenge übertragen, wird der eigentliche Engpass bevor wir zu viel weiter.
- Haben Sie gezeigt, wo der Engpass ist? Haben Sie Ihre SQL-verpackt in DBMS_MONITOR.SESSION_TRACE_ENABLE() und DBMS_MONITOR.SESSION_TRACE_DISABLE() aufruft, um Informationen warten? Sind Sie auf der Sortierung der Daten, absichtlich oder nicht?
- Ich habe noch keine, ich wollte einen schnellen Einstieg in das Projekt durch das lernen ein bisschen über die oracle-und wie könnte ich in der Lage sein, es zu tun. Wir starten morgen. Ich werde tun, was Sie beide, Staat und finden Sie heraus, ob wir haben einen Engpass bei oracle.
InformationsquelleAutor dpbradley
3

Verwenden Sie die setFetchSize(int) - Methode, die auf dem Statement oder PreparedStatement, bevor Sie öffnen Sie die Abfrage. Sie sollten Experimentieren Sie mit verschiedenen Größen. Versuchen Sie 75 als Ausgangspunkt.

Eine etwas andere Verwendung, die Leute haben gesagt, dass die PL/SQL bulk Holen "sweet spot" ist zwischen 2000 und 3000, aber ich sah ein benchmark, der zeigte, dass 75 optimal ist.

Eine große fetch-Größe neigen, reduzieren Sie die Anzahl der Roundtrips zwischen client und server. Aber wenn es zu groß ist die Datenbank hat einen großen Puffer und die Netzwerk-software haben können, zu brechen, bis die große Nachricht in eine Menge von Paketen.
- Ich wäre sehr misstrauisch gegenüber beliebiger - Reihe als "sweet spot", es kommt wohl auch viel auf vielen Faktoren, einschließlich die Größe der einzelnen Zeilen und vielleicht sogar die Natur, von der Transportschicht des Netzwerks. Am Ende ist es am besten wählen einen Startpunkt und machen performance-Tests mit repräsentativen Datenmengen.
- Stimmt, ich sollte Hinzugefügt haben, "your mileage may vary" oder eine ähnliche Verzichtserklärung. Beachten Sie, dass ich warf zahlen von 75 bis 3000, eine ziemlich große Auswahl. Meine Vermutung ist, dass über 75 die performance-Gewinne, wenn überhaupt, sehr klein. Aber das ist nur eine Vermutung. Meine zweite Vermutung ist, dass man leicht mehr verschwenden Zeit mit dem testen von mehreren scenerios gespeichert werden, die versuchen zu bekommen, dass die letzten nano Sekunde der performance. Aber nochmals, das hängt von der situation ab..., Eine Sache, die mir auffällt ist, dass die ursprüngliche Frage setzt Voraus, dass ein problem sein wird, bevor Sie versucht haben, alles Beton...
InformationsquelleAutor redcayuga
3

Oracle unterstützt parallel DML. Dies gilt im besonderen für SELECT-Abfragen. Letztlich der Engpass wird wohl der IO-lese-Geschwindigkeit. Entweder verwenden Sie schnellere Festplatten oder Streifen die Daten über viele Festplatten.

Update

Als APC darauf hingewiesen, in den Kommentaren Parallel Abfragen/DML ist ein Entreprise Edition feature und ist nicht verfügbar in der Standard Edition.

Auch Parallel DML/Abfrage ist nicht die Lösung aller performance-Probleme. Seit mehr als einem Prozess benutzt werden, von der Abfrage Sie können den Durchsatz verbessern, aber auf Kosten der Parallelität. Der Zweck der Parallelität ist die Verwendung von mehr Ressourcen für die Verarbeitung der Abfrage schneller. Wenn die Abfrage IO-bound oder CPU-gebunden ist, gibt es keine zusätzlichen Ressourcen zu nutzen, und das hinzufügen von Parallelität wird nur machen die Sache noch schlimmer.

Aus dem link oben:
Parallele Ausführung ist nicht normal
nützlich für:
- Umgebungen, in denen die CPU -, Speicher-oder I/O-Ressourcen sind bereits
  stark genutzt. Die parallele Ausführung
  ist entworfen, um zusätzlichen nutzen
  verfügbaren hardware-Ressourcen; wenn keine
  solche Ressourcen verfügbar sind, dann
  die parallele Ausführung nicht passt
  Vorteile und in der Tat schädlich sein könnte
  um die Leistung.
- Oder wenn die Ausgabe weniger als alle Daten, die Sie auswählen betrachten von gespeicherten Prozeduren ausgeführt werden, die in der Oracle db (PL/SQL oder Java)
- Parallele Abfrage begrenzt werden, die von CPUs, als auch. Das heißt, wenn unsere server CPU ist schon ausgereizt, die wir erhalten keine profitieren von PQ. In der Tat könnte es alles noch schlimmer machen.
- Auch der übliche VORBEHALT gilt in Bezug auf die Lizenzierung. Parallel Query ist eine Enterprise Edition feature.
- Ich glaube nicht, dass die Anzahl der cpus oder die Geschwindigkeit der Festplatte wird ein Thema sein. Ich bin mir nicht mehr ganz so besorgt über das, weil ich weiß, dass die db läuft von solid state disks. Lesen Multithread-scheint der beste Weg, damit können wir so viel von der box wie möglich und Lesen, was in so schnell wie möglich in unsere Anwendung.
- absolut, ich aktualisierte meine Antwort hinzufügen, ein Wort der Vorsicht notwendig.
InformationsquelleAutor Vincent Malgrat
2

Erstens 'großen Daten' to database Menschen ist [mindestens] Gigabyte, in dem Fall vermute ich, dass deine Probleme werden mit der Lektüre dieser Art von Volumen in Ihre Prozesse, Speicher und aggregieren Sie Sie dort. Warum denkst du, dass ein single-threaded wählen, wird der Engpass sein ?

Wenn der Engpass wurden immer die Daten von der Festplatte, dann mit mehreren threads ziehen Daten aus der gleichen Festplatte wäre nicht unbedingt schneller und kann sogar langsamer sein. Aber wenn Sie verteilt die Daten auf separaten Festplatten, separate threads schneller gehen würde. Wenn mit SSD, Sie glaube nicht, dass Festplatten ein Streit Punkt können wir woanders suchen.

Wenn der Engpass war die Netzwerk-Bandbreite, wieder mehrere threads würden nicht passen mehr Daten durch die Leitung nicht schneller. Sie können sogar nutzen aus entladen der Daten, um eine flache Datei, komprimieren und übertragen, das.

Wenn die wählen Sie sortiert oder kommt aus einem hash-join, können Sie effizienter Speicher mit einem einzigen thread. Mehrere Sitzungen würden teilen müssen, die Maschine zu Gedenken.

Wenn es eine CPU-intensive Verarbeitung von mehreren threads helfen kann. Das könnte so einfach sein wie mit mehreren verbindungen aus java, die jeweils ein anderes Stück von Daten (zB A-K und L-Z), aber es würde sehr viel davon abhängen, WÄHLEN.

Ich Stimme mit dpbradley, dass Sie sollten bestimmen, den Engpass ersten. Wenn Sie die Daten und wählen Sie, es sollte einfach genug sein, um zu bestimmen, wie lange es dauert (sowohl auf dem lokalen Rechner und über das Netzwerk), und ein trace wäre ein notwendiger Ausgangspunkt, um wirklich in, wie könnte es beschleunigt werden.
- Sorry, ich sollte gesagt haben, es ist mehr wie ein Terabyte im Wert von Daten. Sie machen sehr viel Sinn in Bezug auf das ziehen der Daten von der Festplatte, obwohl, guter Punkt. thx, macht sehr viel Sinn in Bezug auf multithreading.
- Wenn Sie verschieben Terabyte, würde ich prüfen, Komprimierung über das Netzwerk. Die Wirksamkeit hängt davon ab, ob es zu ausführlich (z.B. XML) oder bereits komprimiert (video-Dateien). Ich vermute, das Netzwerk wäre eine Drossel, lange bevor die Datenbank.
- ok cool, gut zu wissen, es gibt potential dafür, dass unsere server auf der gleichen box wie die Datenbank, aber diese ist unten in der Zeile etwas.
InformationsquelleAutor Gary Myers

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Update