Wie man eine Textdatei mit C # analysiert

Durch text-Formatierung meinte ich, etwas komplizierter.

Zunächst begann ich manuell hinzufügen die 5000 Zeilen aus der text-Datei, die ich bin, diese Frage für,in meinem Projekt.

Die text-Datei hat 5000 Zeilen mit unterschiedlicher Länge.Zum Beispiel:

1   1   ITEM_ETC_GOLD_01    골드(소)   xxx xxx xxx_TT_DESC 0   0   3   3   5   0   180000  3   0   1   0   0   255 1   1   0   0   0   0   0   0   0   0   0   0   -1  0   -1  0   -1  0   -1  0   -1  0   0   0   0   0   0   0   100 0   0   0   xxx item\etc\drop_ch_money_small.bsr    xxx xxx xxx 0   2   0   0   1   0   0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0   0   0   0   0   0   0   0   0   0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1   표현할 골드의 양(param1이상) -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx 0   0

1   4   ITEM_ETC_HP_POTION_01   HP 회복 약초    xxx SN_ITEM_ETC_HP_POTION_01    SN_ITEM_ETC_HP_POTION_01_TT_DESC    0   0   3   3   1   1   180000  3   0   1   1   1   255 3   1   0   0   1   0   60  0   0   0   1   21  -1  0   -1  0   -1  0   -1  0   -1  0   0   0   0   0   0   0   100 0   0   0   xxx item\etc\drop_ch_bag.bsr    item\etc\hp_potion_01.ddj   xxx xxx 50  2   0   0   1   0   0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0   0   0   0   0   0   0   0   0   0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 120 HP회복양   0   HP회복양(%)    0   MP회복양   0   MP회복양(%)    -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx 0   0

1   5   ITEM_ETC_HP_POTION_02   HP 회복약 (소)  xxx SN_ITEM_ETC_HP_POTION_02    SN_ITEM_ETC_HP_POTION_02_TT_DESC    0   0   3   3   1   1   180000  3   0   1   1   1   255 3   1   0   0   1   0   110 0   0   0   2   39  -1  0   -1  0   -1  0   -1  0   -1  0   0   0   0   0   0   0   100 0   0   0   xxx item\etc\drop_ch_bag.bsr    item\etc\hp_potion_02.ddj   xxx xxx 50  2   0   0   2   0   0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0   0   0   0   0   0   0   0   0   0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 220 HP회복양   0   HP회복양(%)    0   MP회복양   0   MP회복양(%)    -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx -1  xxx 0   0

Den text zwischen dem ersten Zeichen(1) und das zweite Zeichen(1/4/5) ist nicht ein Leerzeichen,es ist ein tab.Es gibt keine Leerzeichen in text-Datei.

Was ich will:

Möchte ich, um die zweite Zahl(In den drei Zeilen, die ich oben gepostet,die zweite ganze zahlen sind 1, 4 und 5) und die Zeichenfolge in der Mitte jeder Zeile zeigt den Pfad(Es beginnt mit "item\" und endet mit der Dateiendung ".ddj").

Mein problem:

Wenn ich das google "Text-Formatierung in C#" - alles, was ich bekommen ist, wie eine Textdatei öffnen und zum schreiben einer text-Datei in C#.Ich weiß nicht, wie die Suche nach text in eine text-Datei.Auch kann ich nicht nach dem ersten integer,da bei Ihr eine kleine ganze Zahl wie in den drei Zeilen, die ich oben gepostet,ich werde nicht in der Lage zu finden, die Region,weil zum Beispiel "1" vielleicht gibt es in einem anderen Ort.

Meine Frage:

Wäre es das beste, Wenn ich ein Programm schreiben, das würde nichts löschen,aber das, was ich brauche.

Den anderen Weg, in meinem Kopf ist die direkte Suche innerhalb der Datei,aber wie ich oben erwähnt - ich vielleicht die falsche Position des zweiten integer, wenn seine Brust.

Bitte etwas vorschlagen,ich kann nicht formatieren, alles per hand.

Kommentar zu dem Problem - Öffnen

"Es gibt keine Leerzeichen in text-Datei" FYI: ein tab-Zeichen ist ein Leerzeichen. Sie meinte "es gibt keine Leerzeichen, der text-Datei" Kommentarautor: Binary Worrier

Hier ist Mein Versuch: [Analyse einer Linie und Einstellung Komma zwischen, um eine csv-Zeichenfolge][1] [1]: stackoverflow.com/a/27244009/1147352 Kommentarautor: DareDevil

InformationsquelleAutor der Frage Ivan Prodanov | 2009-05-13

c#parsing text

OK, hier ist was wir tun: öffnen Sie die Datei, Lesen Sie es Zeile für Zeile, und teilen Sie es durch die Registerkarten. Dann schnappen wir uns den zweiten integer-und-Schleife durch den rest, den Weg zu finden.

StreamReader reader = File.OpenText("filename.txt");
string line;
while ((line = reader.ReadLine()) != null) {
    string[] items = line.Split('\t');
    int myInteger = int.Parse(items[1]); //Here's your integer.
    //Now let's find the path.
    string path = null;
    foreach (string item in items) {
        if (item.StartsWith("item\\") && item.EndsWith(".ddj")) {
            path = item;
        }
    }

    //At this point, `myInteger` and `path` contain the values we want
    //for the current line. We can then store those values or print them,
    //or anything else we like.
}

InformationsquelleAutor der Antwort Samir Talwar

Andere Lösung, dieser Zeit, die Verwendung von regulären Ausdrücken:

using System.Text.RegularExpressions;

...

Regex parts = new Regex(@"^\d+\t(\d+)\t.+?\t(item\\[^\t]+\.ddj)");

StreamReader reader = FileInfo.OpenText("filename.txt");
string line;
while ((line = reader.ReadLine()) != null) {
    Match match = parts.Match(line);
    if (match.Success) {
        int number = int.Parse(match.Group(1).Value);
        string path = match.Group(2).Value;

        //At this point, `number` and `path` contain the values we want
        //for the current line. We can then store those values or print them,
        //or anything else we like.
    }
}

Diesem Ausdruck ist ein wenig Komplex, so ist es hier aufgeschlüsselt:

^        Start of string
\d+      "\d" means "digit" - 0-9. The "+" means "one or more."
         So this means "one or more digits."
\t       This matches a tab.
(\d+)    This also matches one or more digits. This time, though, we capture it
         using brackets. This means we can access it using the Group method.
\t       Another tab.
.+?      "." means "anything." So "one or more of anything". In addition, it's lazy.
         This is to stop it grabbing everything in sight - it'll only grab as much
         as it needs to for the regex to work.
\t       Another tab.

(item\\[^\t]+\.ddj)
    Here's the meat. This matches: "item\<one or more of anything but a tab>.ddj"

InformationsquelleAutor der Antwort Samir Talwar

Könnte man etwas machen wie:

using (TextReader rdr = OpenYourFile()) {
    string line;
    while ((line = rdr.ReadLine()) != null) {
        string[] fields = line.Split('\t'); //THIS LINE DOES THE MAGIC
        int theInt = Convert.ToInt32(fields[1]);
    }
}

Den Grund, warum Sie nicht relevant finden Ergebnis bei der Suche nach 'Formatierung' ist, dass der Vorgang, den Sie ausführen wird aufgerufen, 'analysieren'.

InformationsquelleAutor der Antwort erikkallen

1

Wie es bereits erwähnt, würde ich empfehlen, mit den regulären Ausdruck (in-System.Text) zu bekommen, diese Art von job zu erledigen.

In combo mit einem soliden Werkzeug wie RegexBuddy, die Sie suchen, auf die Behandlung von komplexen text-Datensatz analysieren Situationen, sowie erste Ergebnisse schnell. Das tool macht es wirklich einfach.

Hoffe, das hilft.

InformationsquelleAutor der Antwort Vin
0

Versuchen regulären Ausdrücken. Finden Sie ein bestimmtes Muster in Ihrem text und ersetzen Sie es mit etwas, was Sie wollen. Ich kann Ihnen nicht den genauen code jetzt, aber Sie können testen Sie Ihre Ausdrücke mit diesem.

http://www.radsoftware.com.au/regexdesigner/

InformationsquelleAutor der Antwort Marc Vitalis
0

Könnte man die Datei öffnen und verwenden StreamReader.ReadLine zum Lesen der Datei in line-by-line. Dann können Sie die Verwendung von String.Split zu brechen jede Zeile in Stücke (verwenden Sie ein \t Trennzeichen) zum extrahieren der zweiten Reihe.

Als die Anzahl der Elemente ist anders, Sie würden suchen, die den string für das pattern '\*.ddj'.

Um ein Element zu löschen könnten Sie (zum Beispiel), halten den ganzen Inhalt der Datei im Speicher und schreibt eine neue Datei, wenn der Benutzer auf 'Speichern'.

InformationsquelleAutor der Antwort Justin Ethier

Ist eine Möglichkeit, die ich gefunden habe, wirklich nützlich in Situationen wie dieser ist, zu gehen, old-school und Verwendung des Jet OLE DB-provider, zusammen mit einem schema.ini-Datei zu Lesen, große tab-getrennte Dateien in Verwendung ADO.Net. Natürlich, diese Methode ist wirklich nur sinnvoll, wenn Sie wissen, das format der Datei, die importiert werden.

public void ImportCsvFile(string filename)
{
    FileInfo file = new FileInfo(filename);

    using (OleDbConnection con = 
            new OleDbConnection("Provider=Microsoft.Jet.OLEDB.4.0;Data Source=\"" +
            file.DirectoryName + "\";
            Extended Properties='text;HDR=Yes;FMT=TabDelimited';"))
    {
        using (OleDbCommand cmd = new OleDbCommand(string.Format
                                  ("SELECT * FROM [{0}]", file.Name), con))
        {
            con.Open();

            //Using a DataReader to process the data
            using (OleDbDataReader reader = cmd.ExecuteReader())
            {
                while (reader.Read())
                {
                    //Process the current reader entry...
                }
            }

            //Using a DataTable to process the data
            using (OleDbDataAdapter adp = new OleDbDataAdapter(cmd))
            {
                DataTable tbl = new DataTable("MyTable");
                adp.Fill(tbl);

                foreach (DataRow row in tbl.Rows)
                {
                    //Process the current row...
                }
            }
        }
    }
}

Sobald Sie die Daten in einem netten format wie eine datatable, das herausfiltern der Daten, die Sie benötigen, wird ziemlich trivial.

InformationsquelleAutor der Antwort Mark Green

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.