Analysieren von großen RDF in Python

Möchte ich parse eine sehr große (über 200MB) RDF-Datei in python. Soll ich mich mit sax-oder eine andere Bibliothek? Ich würde schätzen, einige sehr grundlegende code, den ich bauen können, sagen, rufen Sie einen tag.

Vielen Dank im Voraus.

InformationsquelleAutor der Frage usertest | 2010-10-06

17

Wenn Sie auf der Suche für schnelle Leistung, dann würde ich Ihnen empfehlen, Raptor mit der Redland Python-Bindings. Die Leistung des Raptor, der in C geschrieben ist, ist viel besser als die RDFLib. Und Sie können die python-Bindungen im Fall, Sie wollen nicht zu behandeln mit C.

Weiteren Beratung zur Verbesserung der Leistung, vergessen Sie das Parsen von RDF/XML, gehen mit anderen Geschmack von RDF wie Schildkröte oder NTriples. Speziell analysieren ntriples ist viel schneller als das Parsen von RDF/XML. Dies ist, weil die ntriples-syntax ist einfacher.

Verwandeln Sie Ihre RDF/XML ntriples mit rapper, ein Werkzeug, das bei raptor:
```
rapper -i rdfxml -o ntriples YOUR_FILE.rdf > YOUR_FILE.ntriples
```
Den ntriples-Datei enthalten verdreifacht wie:
```
<s1> <p> <o> .
<s2> <p2> "literal" .
```
und Parser sind in der Regel sehr effizienten Umgang mit dieser Struktur. Darüber hinaus memory-wise ist effizienter als RDF/XML, weil, wie Sie sehen können, diese Daten-Struktur ist kleiner.

Dem folgenden code wird ein einfaches Beispiel mit der redland python-bindings:
```
import RDF
parser=RDF.Parser(name="ntriples") #as name for parser you can use ntriples, turtle, rdfxml, ...
model=RDF.Model()
stream=parser.parse_into_model(model,"file://file_path","http://your_base_uri.org")
for triple in model:
    print triple.subject, triple.predicate, triple.object
```
Der base-URI ist der URI-Präfix, im Falle der Verwendung von relativen URIs in Ihrem RDF-Dokument. Sie können überprüfen Sie die Dokumentation zu den Python Redland Bindungen API in hier

Wenn Sie don ' T Pflege viel über die Leistung dann verwenden RDFLibes ist einfach und leicht zu bedienen.

InformationsquelleAutor der Antwort Manuel Salvadores
8

Ich zweiten den Vorschlag, dass du versuchen aus rdflib. Es ist schön und das schnelle prototyping und die BerkeleyDB-backend-store skaliert ziemlich gut in die Millionen verdreifacht, wenn Sie nicht wollen, zu laden, wird das gesamte Diagramm in den Speicher.
```
import rdflib

graph = rdflib.Graph("Sleepycat")
graph.open("store", create=True)
graph.parse("big.rdf")

# print out all the triples in the graph
for subject, predicate, object in graph:
    print subject, predicate, object
```
InformationsquelleAutor der Antwort Ed Summers
2

Meiner Erfahrung, SAX ist ideal für die Leistung, aber es ist ein Schmerz zu schreiben. Es sei denn, ich habe Probleme, ich Neige dazu, zu vermeiden, Programmierung.

"Sehr groß" ist abhängig von der RAM der Maschine. Vorausgesetzt Ihr computer verfügt über 1 GB Speicher, lxmlpyxml oder eine andere Bibliothek e wird gut für die 200mb-Dateien.

InformationsquelleAutor der Antwort Tim McNamara
1

Nicht sicher, ob sax ist die beste Lösung, aber IBM scheint zu glauben, es funktioniert für high-performance-XML-Parsen mit Python: http://www.ibm.com/developerworks/xml/library/x-hiperfparse/. Ihr Beispiel RDF Zwerge Ihnen in der Größe (200 MB vs. 1.9 GB), so dass Ihre Lösung sollte auch bei dir funktionieren.

In diesem Artikel Beispiele beginnen ziemlich einfach und abholen schnell.

InformationsquelleAutor der Antwort Rafe Kettler
1

Zur RDF-Verarbeitung in Python, sollten Sie verwenden eine RDF-Bibliothek wie RDFLib. Wenn Sie brauchen auch einen triplestore, komplexere Lösungen sind verfügbar, aber möglicherweise nicht erforderlich hier (PySesame neo4jrdf mit neo4jpy).

Vor dem schreiben Ihrer eigenen SAX-parser für RDF, check-out rdfxml.py:
```
import rdfxml
data = open('data.rdf', 'r').read()
rdfxml.parseRDF(data)
```
InformationsquelleAutor der Antwort jsalonen

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.