Solr Inkrementelle backup auf ein Echtzeit-system mit heavy-index

Ich umsetzen Suchmaschine mit solr, die den import von minimal 2 Millionen, doc pro Tag.
Benutzer müssen können Sie die Suche auf importierte doc so schnell wie möglich (in Echtzeit).

Habe ich mit 2 dedizierten Windows x64 mit tomcat 6 (Solr Splitter-Modus). jeder server, index über 120 Millionen doc und etwa 220 GB (insgesamt 500 GB).

Möchte ich, um backup inkrementelle aus dem solr-index-Datei während der Aktualisierung oder Suche.

nach dem es suchen, finden rsync-tools für UNIX und DeltaCopy für windows - (GUI-rsync für windows). aber bekomme Fehler (verschwundenen) während der Aktualisierung.

wie dieses problem zu lösen.

Anmerkung 1:Dateien kopieren sehr langsam, wenn die Dateigröße sehr groß. daher kann ich nicht verwenden, auf diese Weise.

Note2: Kann ich verhindern, dass beschädigte index-Dateien während der Aktualisierung, wenn die windows-Abstürzen oder hardware-reset oder ein anderes problem ?

InformationsquelleAutor Hamid | 2010-06-21

8

Nicht laufen ein backup während der Aktualisierung des index. Sie wird wohl korrupt (daher unbrauchbar) backup.

Einige Ideen, das zu umgehen:
- Batch bis Sie Ihre updates, also anstatt das hinzufügen/aktualisieren von Dokumenten, die ganze Zeit, hinzufügen/aktualisieren jeden n Minuten. Dies wird Ihnen ermöglichen, führen Sie das backup zwischen diesen n Minuten. Nachteile: Dokument frische betroffen ist.
- Mit einem zweiten, passive Solr-Kern: zwei Kerne pro shard, eine aktive und eine passive. Alle Abfragen werden ausgestellt gegen den aktiven Kern. Verwenden Replikation zu halten, die passive core up to date. Führen Sie die Sicherung gegen die passive Kern. Man müsste deaktivieren Sie die Replikation während der Ausführung der Sicherung. Nachteile: komplexer, mehr bewegliche Teile, benötigt den doppelten Speicherplatz zur Aufrechterhaltung der passive Kern.
- Ist das nicht die passive index bereits die perfekte backup?
- es ist nur eine Kopie und nicht um eine ordnungsgemäße Sicherung von selbst, da Sie nicht anwenden können backup-Richtlinien, wie off-site-Lagerung, incremental/differential/vollständiges backup, etc. Es gibt eine Menge mehr zu backup als nur das kopieren von Sachen.
- Ich bin nicht sehr vertraut mit backup-Zeug. Aber was ist off-site-storage? (Man könnte die passiven index auf einem anderen server)
- off-site-Speicherung: das ablegen von Kopien der Sicherung in anderen Gebäuden/Städten/Staaten/Ländern. Der passive index sollte so weit wie möglich am nächsten zu den Haupt-index zu machen, die Replikation schnell. Backups sollten auch gemacht werden, in der Nähe der passiven index zu halten, Replikation deaktiviert, so wenig wie möglich. Nur, wenn Sie das backup können Sie wählen, um es zu speichern und off-site.
InformationsquelleAutor Mauricio Scheffer
15

Nehmen Sie ein hot backup (d.h. beim schreiben auf den index) mit dem ReplicationHandler kopieren Solr ' s Daten-Verzeichnis an anderer Stelle auf dem lokalen system. Dann tun Sie, was Sie wie mit das Verzeichnis. Starten Sie die Sicherung, Wann immer Sie wollen, indem Sie zu einer URL wie dieser:
```
http://host:8080/solr/replication?command=backup&location=/home/jboss/backup
```
Natürlich könnten Sie-Skript, das mit wget+cron.

Mehr details finden Sie hier:

http://wiki.apache.org/solr/SolrReplication

Den Lucene in Action Buch hat einen Abschnitt auf hot-backups mit Lucene, und es scheint mir, dass der code in Solr ist ReplicationHandler verwendet die gleiche Strategie wie beschrieben dort. Einer der Buch-Autoren selbst erarbeitet, wie es funktioniert in ein weiterer StackOverflow-Antwort.

InformationsquelleAutor Paul A Jungwirth

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.