Was sind die Optionen für die Speicherung von hierarchischen Daten in einer relationalen Datenbank?

Gute Übersichten

Generell, Sie machen eine Entscheidung zwischen schnell mal Lesen (zum Beispiel, nested set) oder schnell mal schreiben (angrenzens Liste). In der Regel werden Sie am Ende mit einer Kombination der folgenden Optionen, die am besten zu Ihren Bedürfnissen passen. Im folgenden werden einige in-Tiefe Lesung:

Eine weitere Geschachtelte Intervalle vs. Nähe-Liste Vergleich: der beste Vergleich der Nähe Liste, Materialized Path, Geschachtelten und Verschachtelte Intervall den ich gefunden habe.
Modelle für hierarchische Daten: Folien mit guten Erklärungen der Nachteile und Beispiel für die Verwendung
Die Darstellung der Hierarchien in MySQL: sehr gute übersicht von Geschachtelten insbesondere
Hierarchische Daten in RDBMS: die meisten umfassende und gut organisierte Sammlung von links, die ich gesehen habe, aber nicht viel in der Weise der Erklärung

Optionen

Denen ich mir bewusst bin-und Allgemeine Funktionen:

Nähe Liste:
- Spalten: ID, ParentID
- Einfach zu implementieren.
- Billig-Knoten bewegt, Einfügungen und Löschungen.
- Teuer zu finden, die Ebene, Abstammung & Nachkommen, Pfad
- Vermeiden N+1 über Common Table Expressions in Datenbanken, die Sie unterstützen
Nested Set (ein.k.ein Modified Preorder Tree Traversal)
- Spalten: Links, Rechts
- Billig Abstammung, Nachkommen
- Sehr teuer O(n/2) bewegt, Einfügungen, Löschungen aufgrund des volatilen Codierung
Bridge-Tabelle (ein.k.ein. Schließung Tabelle /w-Trigger)
- Verwendet separate join-Tabelle: Vorfahren, Nachkommen, Tiefe (optional)
- Günstigen Vorfahren und Nachkommen
- Schreibt Kosten O(log n) (Größe Teilbaum) für einfügen, aktualisieren, löschen
- Normalisierte Kodierung: gut für die RDBMS-Statistiken & query planner schließt
- Erfordert mehrere Zeilen pro Knoten
Abstammung Spalte (ein.k.ein. Materialized Path, Path Enumeration)
- Spalte: Linie (z.B. /Eltern/Kind/Enkel/etc...)
- Billig Nachkommen über prefix-Abfrage (z.B. LEFT(lineage, #) = '/enumerated/path')
- Schreibt Kosten O(log n) (Größe Teilbaum) für einfügen, aktualisieren, löschen
- Nicht-relationale: basiert auf Array-Datentyp oder serialisierte string-format
Geschachtelte Intervalle
- Wie verschachtelte Satz, aber mit real/float/decimal, so dass die Codierung nicht flüchtig (preiswert verschieben/einfügen/löschen)
- Hat real/float/decimal-Darstellung/Präzisions-Themen
- Matrix-Codierung-Variante fügt Vorfahren Codierung (materialized path) für "frei", aber mit zusätzlichen trickiness der linearen algebra.
Flat Tisch
- Eine modifizierte Nachbarschaft-Liste, fügt ein Level und Rang (z.B. Bestellung) - Spalte jedes Datensatzes.
- Billig zu iterieren/paginieren über
- Teuer, verschieben und löschen
- Gut Verwenden: Gewinde-Diskussion - Foren /blog-Kommentare
Mehrere herkunftsspalten
- Spalten: eine für jede Linie Ebene bezieht sich auf alle Eltern, die bis zu der Wurzel, werden die Ebenen nach unten aus dem Element s-Ebene auf NULL gesetzt
- Günstigen Vorfahren, Nachkommen, Ebene
- Günstigen einfügen, löschen, verschieben der Blätter
- Teuer, einfügen, löschen, verschieben von dem internen Knoten
- Hart an der Grenze, wie tief die Hierarchie

Datenbank-Spezifische Hinweise

MySQL

Verwenden Sie session-Variablen für Angrenzens Liste

Oracle

Verwenden VERBINDEN zu durchqueren Angrenzens Listen

PostgreSQL

ltree Datentyp für Materialized Path

SQL Server

Allgemeine Zusammenfassung
2008 bietet HierarchyId Daten Typ scheint zu helfen, mit Abstammung Spalte Ansatz und erweitern die Tiefe dargestellt werden kann.

Nach slideshare.net/billkarwin/sql-antipatterns-strike-back Seite 77 Closure Tables überlegen sind Adjacency List, Path Enumeration und Nested Sets in Bezug auf die Benutzerfreundlichkeit (und ich vermute, die Leistung sowie).
Ich vermisse eine sehr einfache version hier: eine einfache BLOB. Wenn Ihre Hierarchie nur noch ein paar dozend Elemente, die einen serialisierten Baum von id ' s könnte die beste option sein.
Frage ist ein community-wiki, so fühlen sich frei, um es haben. Mein Gedanke dabei: ich würde es nur tun, die mit den Datenbanken unterstützen eine Art von blob-Strukturierung, wie Sie XML mit einem stabilen Anfragesprache wie XPATH. Ansonsten sehe ich nicht ein guter Weg, von der Abfrage abgesehen von abrufen, Deserialisieren und munge im code, nicht SQL. Und wenn du wirklich ein problem, wo Sie brauchen, eine Menge von beliebigen Elementen könnten Sie besser dran, mit Knoten wie bei einer Datenbank Neo4J, die ich jemals benutzt habe und mochte, wenn auch nie bis zur Produktion.
Für MS SQL Server: Kombination von Id-ParentId-und HierarchyId-Ansätze für Hierarchische Daten
Die MSDN-link für den "Allgemeinen Zusammenfassung" nicht mehr zeigt der Artikel. Es wurde in der September 2008-Ausgabe des MSDN Magazins, die Sie herunterladen können, als eine CHM-Datei, oder sehen Sie über das web-Archiv unter: web.archive.org/web/20080913041559/http://msdn.microsoft.com:80/...

InformationsquelleAutor |

54

Meine Lieblings-Antwort ist als das, was der erste Satz in diesem thread vorgeschlagen. Verwenden Sie ein Angrenzens Liste, die Hierarchie zu halten und verwenden Sie Verschachtelte Sätze, zum Abfragen der Hierarchie.

Das problem war bis jetzt, dass die coversion-Methode von einem Adjacecy Liste zu Nested Sets wurde furchtbar langsam, weil die meisten Menschen nutzen die extreme RBAR Methode bekannt als "Push-Stapel", um die Konvertierung und wurde als viel zu teuer zu erreichen das Nirwana der Einfachheit der Wartung durch die Nähe Liste und die tolle Leistung von Nested Sets. Als Ergebnis, die meisten Menschen müssen, um sich für die eine oder die andere, besonders wenn es mehr als, sagen wir, eine lausige 100.000 Knoten oder so. Mit der push-stack Methode kann einen ganzen Tag, um die Konvertierung zu tun, was MLM ' ers würden erwägen, um eine kleine Millionen-Knoten-Hierarchie.

Ich dachte, ich würde geben Celko ein bisschen Wettbewerb durch kommen mit einer Methode zum konvertieren eines Angrenzens Liste zu Nested sets bei Geschwindigkeiten, die scheinen einfach unmöglich. Hier ist die Leistung des push-stack Methode auf meinem i5 laptop.
```
Duration for     1,000 Nodes = 00:00:00:870 
Duration for    10,000 Nodes = 00:01:01:783 (70 times slower instead of just 10)
Duration for   100,000 Nodes = 00:49:59:730 (3,446 times slower instead of just 100) 
Duration for 1,000,000 Nodes = 'Didn't even try this'
```
Und hier ist die Dauer für die neue Methode (mit der push-stack Methode in Klammern).
```
Duration for     1,000 Nodes = 00:00:00:053 (compared to 00:00:00:870)
Duration for    10,000 Nodes = 00:00:00:323 (compared to 00:01:01:783)
Duration for   100,000 Nodes = 00:00:03:867 (compared to 00:49:59:730)
Duration for 1,000,000 Nodes = 00:00:54:283 (compared to something like 2 days!!!)
```
Ja, das ist richtig. 1 Millionen Knoten umgewandelt in weniger als einer minute und 100.000 Knoten in unter 4 Sekunden.

Können Sie Lesen Sie über die neue Methode und eine Kopie des Codes unter der folgenden URL.
http://www.sqlservercentral.com/articles/Hierarchy/94040/

Ich entwickelte auch eine "pre-aggregierten" Hierarchie mit ähnlichen Methoden. MLM ' ers und die Leute, die Stücklisten werden vor allem Interessierte in diesem Artikel.
http://www.sqlservercentral.com/articles/T-SQL/94570/

Wenn Sie von zu stoppen, um einen Blick auf entweder den Artikel, den Sprung in die "diskutieren" - link und lassen Sie mich wissen, was Sie denken.

InformationsquelleAutor
29

Dies ist eine sehr partielle Antwort auf deine Frage, aber ich hoffe immer noch nützlich.

Microsoft SQL-Server 2008 implementiert zwei Funktionen, die sehr nützlich sind für die Verwaltung von hierarchischen Daten:
- die HierarchyId Daten geben.
- common table expressions, mit der mit Stichwort.
Haben Sie einen Blick auf "Modellieren Sie Ihre Daten Hierarchien Mit SQL Server 2008" von Kent Tegels auf der MSDN-Website für beginnt. Siehe auch meine eigene Frage: Rekursive gleichen-table-Abfrage in SQL Server 2008

Interessant, HierarchyId, wusste nicht darum, dass man: msdn.microsoft.com/en-us/library/bb677290.aspx
In der Tat. Ich arbeite mit einer Menge von rekursiv-hierarchische Daten, und ich finde, common table expressions äußerst nützlich. Siehe msdn.microsoft.com/en-us/library/ms186243.aspx für ein intro.

InformationsquelleAutor CesarGon

Dieser Entwurf wurde noch nicht erwähnt:

Mehrere herkunftsspalten

Obwohl es seine Grenzen hat, wenn Sie tragen können, Sie, es ist sehr einfach und sehr effizient. Features:

Spalten: eine für jede Linie Ebene bezieht sich auf alle Eltern, die bis zu der Wurzel, werden die Ebenen unterhalb des aktuellen items' - Ebene auf NULL gesetzt
Grenze, wie tief die Hierarchie
Günstigen Vorfahren, Nachkommen, Ebene
Günstigen einfügen, löschen, verschieben der Blätter
Teuer, einfügen, löschen, verschieben von dem internen Knoten

Hier folgt ein Beispiel - taxonomischen Baum der Vögel sind, so dass die Hierarchie-Klasse/Ordnung/Familie/Gattung/Spezies - Spezies ist die niedrigste Ebene 1 row = 1 taxon (das entspricht Art in der Fall of the leaf nodes):

CREATE TABLE `taxons` (
  `TaxonId` smallint(6) NOT NULL default '0',
  `ClassId` smallint(6) default NULL,
  `OrderId` smallint(6) default NULL,
  `FamilyId` smallint(6) default NULL,
  `GenusId` smallint(6) default NULL,
  `Name` varchar(150) NOT NULL default ''
);

am Beispiel der Daten:

+---------+---------+---------+----------+---------+-------------------------------+
| TaxonId | ClassId | OrderId | FamilyId | GenusId | Name                          |
+---------+---------+---------+----------+---------+-------------------------------+
|     254 |       0 |       0 |        0 |       0 | Aves                          |
|     255 |     254 |       0 |        0 |       0 | Gaviiformes                   |
|     256 |     254 |     255 |        0 |       0 | Gaviidae                      |
|     257 |     254 |     255 |      256 |       0 | Gavia                         |
|     258 |     254 |     255 |      256 |     257 | Gavia stellata                |
|     259 |     254 |     255 |      256 |     257 | Gavia arctica                 |
|     260 |     254 |     255 |      256 |     257 | Gavia immer                   |
|     261 |     254 |     255 |      256 |     257 | Gavia adamsii                 |
|     262 |     254 |       0 |        0 |       0 | Podicipediformes              |
|     263 |     254 |     262 |        0 |       0 | Podicipedidae                 |
|     264 |     254 |     262 |      263 |       0 | Tachybaptus                   |

Das ist großartig, denn auf diese Weise erreichen Sie alle notwendigen Operationen auf sehr einfache Weise, wie lange, wie die internen Kategorien ändern sich nicht Ihrer Ebene in der Struktur.

InformationsquelleAutor

17

Angrenzens Modell + Nested Sets Modell

Ich ging für Sie, weil ich könnte das einfügen neuer Elemente zu dem Baum leicht (Sie brauchen nur ein Zweig-id einfügen eines neuen Elements) und auch Abfrage, es ganz schnell.
```
+-------------+----------------------+--------+-----+-----+
| category_id | name                 | parent | lft | rgt |
+-------------+----------------------+--------+-----+-----+
|           1 | ELECTRONICS          |   NULL |   1 |  20 |
|           2 | TELEVISIONS          |      1 |   2 |   9 |
|           3 | TUBE                 |      2 |   3 |   4 |
|           4 | LCD                  |      2 |   5 |   6 |
|           5 | PLASMA               |      2 |   7 |   8 |
|           6 | PORTABLE ELECTRONICS |      1 |  10 |  19 |
|           7 | MP3 PLAYERS          |      6 |  11 |  14 |
|           8 | FLASH                |      7 |  12 |  13 |
|           9 | CD PLAYERS           |      6 |  15 |  16 |
|          10 | 2 WAY RADIOS         |      6 |  17 |  18 |
+-------------+----------------------+--------+-----+-----+
```
- Jedes mal, wenn Sie benötigen alle Kinder von jedem Elternteil, dem du einfach die Abfrage die parent Spalte.
- Wenn Sie benötigt alle Nachkommen von einem Elternteil Abfrage für Gegenstände, die Ihre lft zwischen lft und rgt Eltern.
- Wenn Sie benötigt werden alle Eltern jeder Knoten bis auf die Wurzel des Baumes, Sie die Abfrage für Gegenstände lft niedriger als der Knoten lft und rgt größer als der Knoten rgt und Sortieren von parent.
, Die ich brauchte, um Zugriff auf die und Abfrage der Baum schneller als Einlagen, das ist, warum ich wählte dieses

Das problem ist nur zu beheben, die left und right Spalten beim einfügen neuer Elemente. naja ich erstellt eine gespeicherte Prozedur für es und nannte es jedes mal, wenn ich ein neues Element eingefügt, das war selten in meinem Fall ist es aber wirklich schnell.
Ich habe die Idee von Joe Celko ' s Buch, und die gespeicherte Prozedur, und wie ich kam mit ihm hier erklärt wird im DBA-SE
https://dba.stackexchange.com/q/89051/41481

+1 das ist ein legitimer Ansatz. Aus meiner eigenen Erfahrung der Schlüssel ist zu entscheiden, wenn Sie sind OK mit dirty reads, wenn große update-Operationen auftreten. Wenn nicht, wird es eine Frage oder verhindern, dass Menschen von Abfragen Tabellen direkt und immer über eine API - DB sprocs / Funktionen oder code.
Dies ist eine interessante Lösung, allerdings bin ich mir nicht sicher, dass das Abfragen des parent-Spalte bietet wirklich keine großen Vorteile, wenn Sie versuchen zu finden, Kinder -- deshalb haben wir für den linken und rechten Spalten, in den ersten Platz.
es gibt einen Unterschied zwischen children und descendants. left und right werden verwendet, um die Nachkommen.

InformationsquelleAutor
13

Wenn Ihre Datenbank unterstützt arrays, Sie können auch implementieren Sie eine Linie Spalte oder materialisierte Pfad als array des parent-ids.

Speziell mit Postgres verwenden Sie dann die set-Operatoren zum Abfragen der Hierarchie, und erhalten Sie ausgezeichnete Leistung mit GIN-Indizes. Dies macht die Suche nach Eltern, Kinder und Tiefe ziemlich trivial in einer einzigen Abfrage. Updates sind ziemlich überschaubar als gut.

Habe ich eine volle schreiben, der mit arrays für die materialisierte Pfade wenn du neugierig bist.

InformationsquelleAutor
9

Dies ist wirklich ein square peg, Runde Loch Frage.

Wenn relationale Datenbanken und SQL sind die nur der hammer Sie haben oder bereit sind, Sie zu verwenden, dann die Antworten, die gepostet wurden, so weit angemessen. Aber warum nicht ein tool verwenden, das entworfen, um hierarchische Daten? Graph-Datenbank sind ideal für komplexe hierarchische Daten.

Den Unzulänglichkeiten des relationalen Modells zusammen mit der Komplexität von code/query-Lösung zum anzeigen einer Kurve/hierarchische Modell auf ein relationales Modell ist einfach nicht der Mühe Wert, wenn im Vergleich zu der Leichtigkeit, mit der eine graph Datenbank-Lösung für das gleiche problem.

Betrachten Sie eine Stückliste als eine gemeinsame hierarchische Datenstruktur.
```
class Component extends Vertex {
    long assetId;
    long partNumber;
    long material;
    long amount;
};

class PartOf extends Edge {
};

class AdjacentTo extends Edge {
};
```
Kürzesten Weg zwischen zwei Baugruppen: Einfacher graph-traversal Algorithmus. Pfade zulässig qualifiziert werden kann, basierend auf Kriterien.

Ähnlichkeit: Was ist der Grad der ähnlichkeit zwischen zwei Baugruppen? Führen Sie eine traversal auf beiden sub-Bäume Berechnung der Schnittmenge und Vereinigung der beiden sub-Bäume. Die Prozent, ähnlich ist die Schnittmenge geteilt durch die union.

Transitive Abschluss: Walk the sub-tree und die Summe der field(s) of interest, z.B. "Wie viel Aluminium ist in einem sub-assembly?"

Ja, Sie können das problem lösen mit SQL und relationalen Datenbanken. Allerdings gibt es viel bessere Ansätze, wenn Sie bereit sind, verwenden Sie das richtige Werkzeug für den job.

Diese Antwort wäre sehr nützlicher, wenn die Anwendungsfälle demonstriert, oder noch besser kontrastiert, wie die Abfrage ein Diagramm-Datenbank mit SPARQL beispielsweise anstelle von SQL in einem RDBMS.
SPARQL ist relevant für RDF-Datenbanken, die eine Unterklasse der größeren Domäne von graph-Datenbanken. Ich arbeite mit InfiniteGraph, die nicht einer RDF-Datenbank und bietet zurzeit keine Unterstützung für SPARQL. InfiniteGraph unterstützt verschiedene Abfrage-Mechanismen: (1) ein graph navigation API für das einrichten von Ansichten, Filter, Pfad Qualifikations-und Ergebnis-Handler, (2) eine komplexe graph-path pattern matching Sprache, und (3) Gremlin.

InformationsquelleAutor

Ich bin mit PostgreSQL mit Verschluss-Tabellen für mein Hierarchien.
Ich habe eine universal-gespeicherte Prozedur, die für die gesamte Datenbank:

CREATE FUNCTION nomen_tree() RETURNS trigger
    LANGUAGE plpgsql
    AS $_$
DECLARE
  old_parent INTEGER;
  new_parent INTEGER;
  id_nom INTEGER;
  txt_name TEXT;
BEGIN
-- TG_ARGV[0] = name of table with entities with PARENT-CHILD relationships (TBL_ORIG)
-- TG_ARGV[1] = name of helper table with ANCESTOR, CHILD, DEPTH information (TBL_TREE)
-- TG_ARGV[2] = name of the field in TBL_ORIG which is used for the PARENT-CHILD relationship (FLD_PARENT)
    IF TG_OP = 'INSERT' THEN
    EXECUTE 'INSERT INTO ' || TG_ARGV[1] || ' (child_id,ancestor_id,depth) 
        SELECT $1.id,$1.id,0 UNION ALL
      SELECT $1.id,ancestor_id,depth+1 FROM ' || TG_ARGV[1] || ' WHERE child_id=$1.' || TG_ARGV[2] USING NEW;
    ELSE                                                           
    -- EXECUTE does not support conditional statements inside
    EXECUTE 'SELECT $1.' || TG_ARGV[2] || ',$2.' || TG_ARGV[2] INTO old_parent,new_parent USING OLD,NEW;
    IF COALESCE(old_parent,0) <> COALESCE(new_parent,0) THEN
      EXECUTE '
      -- prevent cycles in the tree
      UPDATE ' || TG_ARGV[0] || ' SET ' || TG_ARGV[2] || ' = $1.' || TG_ARGV[2]
        || ' WHERE id=$2.' || TG_ARGV[2] || ' AND EXISTS(SELECT 1 FROM '
        || TG_ARGV[1] || ' WHERE child_id=$2.' || TG_ARGV[2] || ' AND ancestor_id=$2.id);
      -- first remove edges between all old parents of node and its descendants
      DELETE FROM ' || TG_ARGV[1] || ' WHERE child_id IN
        (SELECT child_id FROM ' || TG_ARGV[1] || ' WHERE ancestor_id = $1.id)
        AND ancestor_id IN
        (SELECT ancestor_id FROM ' || TG_ARGV[1] || ' WHERE child_id = $1.id AND ancestor_id <> $1.id);
      -- then add edges for all new parents ...
      INSERT INTO ' || TG_ARGV[1] || ' (child_id,ancestor_id,depth) 
        SELECT child_id,ancestor_id,d_c+d_a FROM
        (SELECT child_id,depth AS d_c FROM ' || TG_ARGV[1] || ' WHERE ancestor_id=$2.id) AS child
        CROSS JOIN
        (SELECT ancestor_id,depth+1 AS d_a FROM ' || TG_ARGV[1] || ' WHERE child_id=$2.' 
        || TG_ARGV[2] || ') AS parent;' USING OLD, NEW;
    END IF;
  END IF;
  RETURN NULL;
END;
$_$;

Dann für jede Tabelle, wo ich eine Hierarchie, bei der ich einen trigger erstellen

CREATE TRIGGER nomenclature_tree_tr AFTER INSERT OR UPDATE ON nomenclature FOR EACH ROW EXECUTE PROCEDURE nomen_tree('my_db.nomenclature', 'my_db.nom_helper', 'parent_id');

Für das Auffüllen einer Schließung Tabelle aus vorhandenen Hierarchie ich diese gespeicherte Prozedur verwenden:

CREATE FUNCTION rebuild_tree(tbl_base text, tbl_closure text, fld_parent text) RETURNS void
    LANGUAGE plpgsql
    AS $$
BEGIN
    EXECUTE 'TRUNCATE ' || tbl_closure || ';
    INSERT INTO ' || tbl_closure || ' (child_id,ancestor_id,depth) 
        WITH RECURSIVE tree AS
      (
        SELECT id AS child_id,id AS ancestor_id,0 AS depth FROM ' || tbl_base || '
        UNION ALL 
        SELECT t.id,ancestor_id,depth+1 FROM ' || tbl_base || ' AS t
        JOIN tree ON child_id = ' || fld_parent || '
      )
      SELECT * FROM tree;';
END;
$$;

Schließung Tabellen definiert sind, mit 3 Spalten - ANCESTOR_ID, DESCENDANT_ID, TIEFE. Es ist möglich (und ich auch Beratung) zum speichern der Datensätze mit demselben Wert für VORFAHREN und NACHKOMMEN, und ein Wert von null in die TIEFE. Dies wird zu einer Vereinfachung der Abfragen für den Abruf der Hierarchie. Und Sie sind in der Tat sehr einfach:

-- get all descendants
SELECT tbl_orig.*,depth FROM tbl_closure LEFT JOIN tbl_orig ON descendant_id = tbl_orig.id WHERE ancestor_id = XXX AND depth <> 0;
-- get only direct descendants
SELECT tbl_orig.* FROM tbl_closure LEFT JOIN tbl_orig ON descendant_id = tbl_orig.id WHERE ancestor_id = XXX AND depth = 1;
-- get all ancestors
SELECT tbl_orig.* FROM tbl_closure LEFT JOIN tbl_orig ON ancestor_id = tbl_orig.id WHERE descendant_id = XXX AND depth <> 0;
-- find the deepest level of children
SELECT MAX(depth) FROM tbl_closure WHERE ancestor_id = XXX;

InformationsquelleAutor

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Mehrere herkunftsspalten

Angrenzens Modell + Nested Sets Modell