Analysiert der TSV-Datei

Muss ich parse eine Datei im TSV-format (tab-separierte Werte). Ich habe einen regex verwenden, brechen Sie die Datei in jeder Zeile, aber ich kann nicht finden, eine Befriedigung zu Parsen jeder Zeile.
Für jetzt habe ich dieses:

(?<g>("[^"]+")+|[^\t]+)

Aber es funktioniert nicht, wenn ein Element in der Zeile hat mehr als 2 aufeinander folgende doppelte Anführungszeichen.

Hier ist, wie die Datei formatiert ist: jedes element wird getrennt durch einen Tabulator. Wenn ein Element enthält eine Registerkarte, es ist eingeschlossen in Anführungszeichen ein. Wenn ein Element enthält, ein doppeltes Anführungszeichen, es wird verdoppelt. Aber manchmal ein element enthält 4 conscutive doppelte Anführungszeichen, und die oben genannten regex spaltet sich das element in 2 verschiedene.

Beispiele:

item1ok "item","2","oK"

ist richtig analysiert wird in 2 Elementen: item1ok und Element"2"ok (nach dem trimmen den unnötigen Anführungszeichen), aber:

item1oK "item""""2oK"

wird analysiert, in 3 Elemente: item1ok, Element und "2ok (nach dem trimmen wieder).

Hat jemand eine Idee, wie die regex passen in diesem Fall? Oder gibt es eine andere Lösung zu analysieren TSV einfach? (Dies mache ich in C#).

InformationsquelleAutor Antoine | 2010-03-09

c#parsing regex

7

Könnten Sie die TextFieldParser. Dies ist technisch ein VB-Montage, Sie kann aber auch in C# durch einen Verweis auf die Microsoft.VisualBasic.FileIO Montage.

Sich das Beispiel im link oben zeigt auch die Verwendung auf einer tab-getrennten Datei.
- +1 Es ist Teil der .Net framework: es ist von Microsoft unterstützt, es braucht keine separate Implementierung.
- Nur um awere dies ist nicht verwendbar in Dotnet Kern-und Dotnet-Standard aufgrund der VisualBasic-code nicht open Source und nicht portiert.. je.
InformationsquelleAutor Adam Neal
6

Anstatt zu versuchen, bauen Sie Ihre eigenen CSV/TSV-Datei-parser (oder Zeichenfolge verwenden.Split), würd ich dir empfehlen einen Blick auf "Fast CSV Reader" oder "FileHelpers Bibliothek".

Bin ich mit dem ersten eine, und bin sehr glücklich mit ihm (er unterstützt eine beliebige Trennzeichen wie z.B. Komma, Semikolon, tab).
- Ich habe die Lumenworks CSV-reader, funktioniert gut und würde für eine gute Basis für einen TSV-reader.
- Das ist sicherlich eine gute Lösung, aber ich möchte vermeiden, zusätzliche Abhängigkeiten zu meinem code, damit die .Netto Klasse Antwort passt meine Bedürfnisse besser.
- M4N, Lumenworks' CSV-reader funktioniert gut, außer, dass es immer verwirrt zwischen CSV und TSV (denke ich jedenfalls) auf eine bestimmte Zeile, da Kommas und Anführungszeichen auf der gleichen Linie oder so etwas. Wissen Sie, wie um es zu bekommen, um nur einen Blick auf die Registerkarten für die Trennung?
- Ignorieren, dass das problem gelöst: stackoverflow.com/questions/2425800/...
InformationsquelleAutor M4N
1

Statt mit RegEx, vielleicht könnten Sie versuchen, die String.Split-Methode (Char[])
Methode.
- String.Split() wird prüfen, eingehüllt Auswertungen als Trennzeichen, so dass es nicht korrekt ist.
- Ich dachte, dass, sobald ich auf den button speichern. Was kann ich sagen? Ich weiß, ich bin Scheiße.
InformationsquelleAutor DaveB

-1

Weiß ich nicht C#, aber das sollte den trick tun (in python)

txt = 'item1ok\t"item""2""oK"\titem1oK\t"item""""2oK"\tsomething else'
regex = '''
(?:                    # definition of a field
 "((?:[^"]|"")*)"   # either a double quoted field (allowing consecutive "")
 |                  # or
 ([^"]*)            # any character except a double quote
)                      # end of field
(?:$|\t)               # each field followed by a tab (except the last one)
'''
r = re.compile(regex, re.X)
# now find each match, and replace "" by " and remove trailing \t
# remove also the latest entry in the list (empty string)
columns = [t[0].replace('""', '"') if t[0] != '' else t[1].strip() for t in r.findall(txt)][:-1]
print columns
# prints: ['item1ok', 'item"2"oK', 'item1oK', 'item""2oK', 'something else']

Die Frage war speziell für C# - .. Buchung, die eine Lösung in einer anderen Sprache ist nicht hilfreich.

InformationsquelleAutor Alex

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.