Wie parse csv mit boost::spirit

Habe ich diese csv-Zeile

std::string s = R"(1997,Ford,E350,"ac, abs, moon","some "rusty" parts",3000.00)";

Kann ich parse es mit boost::tokenizer:

typedef boost::tokenizer< boost::escaped_list_separator<char> , std::string::const_iterator, std::string> Tokenizer;
boost::escaped_list_separator<char> seps('\\', ',', '\"');
Tokenizer tok(s, seps);
for (auto i : tok)
{
    std::cout << i << std::endl;
}

Es ist richtig, außer token "rusty" haben sollten doppelte Anführungszeichen, die sind immer abgestreift.

Hier ist mein Versuch, die Verwendung von boost::spirit

boost::spirit::classic::rule<> list_csv_item = !(boost::spirit::classic::confix_p('\"', *boost::spirit::classic::c_escape_ch_p, '\"') | boost::spirit::classic::longest_d[boost::spirit::classic::real_p | boost::spirit::classic::int_p]);
std::vector<std::string> vec_item;
std::vector<std::string>  vec_list;
boost::spirit::classic::rule<> list_csv = boost::spirit::classic::list_p(list_csv_item[boost::spirit::classic::push_back_a(vec_item)],',')[boost::spirit::classic::push_back_a(vec_list)];
boost::spirit::classic::parse_info<> result = parse(s.c_str(), list_csv);
if (result.hit)
{
  for (auto i : vec_item)
  {
    cout << i << endl;
   }
}

Probleme:

funktioniert nicht, druckt die erste token nur
warum boost::spirit::classic? kann nicht finden, Beispiele mit Geist V2
setup ist brutal .. aber damit kann ich Leben, mit dieser

** Ich möchte wirklich zu verwenden boost::spirit weil es dazu neigt, ziemlich schnell

Erwartete Ausgabe:

1997
Ford
E350
ac, abs, moon
some "rusty" parts

3000.00

Ich sehe nicht, wie Sie behandeln würde ""rusty"" als gültige Eingabe. Wenn quoted strings sind ok, dann würde ich erwarten, dass "embedded ""quotes"" like this", aber nicht unerwartet "" (leere Zeichenkette), vorkommend in einem Feld.
Ich habe bearbeitet den string-input, so dass die Anführungszeichen besser machen Sinn, hoffe ich.
Ich glaube nicht, es macht jetzt mehr Sinn. Die Anzahl der Angebote ist unsymmetrisch. Warum nimmst du nicht die erwartete Leistung?
Gerade gebucht und erwartete Ausgabe
Ich glaube nicht, dass es eine vernünftige Art und Weise zu interpretieren, dass die Eingabe auf diese Weise. Die 'embedded' Zitate müssen escaped werden ("" oder z.B. \") die eine oder andere Weise, sonst wird der scan nicht möglich zu entscheiden, ob das Ende der Zeichenkette erreicht wurde? Ich denke nicht, dass eine CSV-engine behandelt es dieser Weg.
Wenn Sie MS Excel ersetzen Sie das Trennzeichen durch Tabulatoren kopieren Sie die Zeile und fügen Sie in einem Excel-sheet. Es ist korrekt analysiert

InformationsquelleAutor user841550 | 2013-08-21

5

Sehe die post sieht ein gutes Stück sauberer aus, als meine, aber ich war putting dies zusammen für ein bisschen, so ist es hier sowieso:
```
#include <boost/tokenizer.hpp>
#include <boost/spirit/include/qi.hpp>

namespace qi = boost::spirit::qi;

int main() {
    const std::string s = R"(1997,Ford,E350,"ac, abs, moon",""rusty"",3000.00)";

    //Tokenizer
    typedef boost::tokenizer< boost::escaped_list_separator<char> , std::string::const_iterator, std::string> Tokenizer;
    boost::escaped_list_separator<char> seps('\\', ',', '\"');
    Tokenizer tok(s, seps);
    for (auto i : tok)
        std::cout << i << "\n";
    std::cout << "\n";

    //Boost Spirit Qi
    qi::rule<std::string::const_iterator, std::string()> quoted_string = '"' >> *(qi::char_ - '"') >> '"';
    qi::rule<std::string::const_iterator, std::string()> valid_characters = qi::char_ - '"' - ',';
    qi::rule<std::string::const_iterator, std::string()> item = *(quoted_string | valid_characters );
    qi::rule<std::string::const_iterator, std::vector<std::string>()> csv_parser = item % ',';

    std::string::const_iterator s_begin = s.begin();
    std::string::const_iterator s_end = s.end();
    std::vector<std::string> result;

    bool r = boost::spirit::qi::parse(s_begin, s_end, csv_parser, result);
    assert(r == true);
    assert(s_begin == s_end);

    for (auto i : result)
        std::cout << i << std::endl;
    std::cout << "\n";
}   
```
Und dieser Ausgänge:
```
1997
Ford
E350
ac, abs, moon
rusty
3000.00

1997
Ford
E350
ac, abs, moon
rusty
3000.00
```
Erwähnenswert: Diese nicht implementieren eine vollständige CSV-parser. Sie würde auch wollen, zu schauen escape-Zeichen oder was auch immer sonst benötigt wird, für Ihre Umsetzung.

Auch: Wenn Sie auf der Suche in der Dokumentation, nur damit Sie wissen, mit Qi, 'a' entspricht boost::spirit::qi::lit('a') und "abc" entspricht boost::spirit::qi::lit("abc").

Auf Doppelte Anführungszeichen: So, als Sehe die Noten in einem Kommentar oben, es ist nicht direkt klar, was die Regeln, um ein "" im input-text bedeutet. Wenn Sie wollte, dass alle Instanzen von "" nicht innerhalb einer in Anführungszeichen eingeschlossenen Zeichenkette umgewandelt werden, um eine ", dann so etwas wie die folgenden funktionieren würde.
```
qi::rule<std::string::const_iterator, std::string()> double_quote_char = "\"\"" >> qi::attr('"');
qi::rule<std::string::const_iterator, std::string()> item = *(double_quote_char | quoted_string | valid_characters );
```
- Dies ist ausgezeichnet. Ich hatte erwartet, doppelte Anführungszeichen um das Zeichen "rusty".
- Ich habe einen Hinweis auf, die. Während er das tut, geben Sie das richtige Ergebnis für diesen input, ich bin nicht sicher, dass es richtig ist, nach einigen größeren Regelsatz, ich bin mir nicht bewusst.
- Beachten Sie auch, dass es noch andere interessante Anliegen beim erstellen einer CSV-parser. Was soll die leere Zeichenfolge führen? Dieser code erzeugt einen Vektor, der aussieht wie {''}, aber andere vielleicht erwarten, dass ein leerer vector {}.
- Ihr Vorschlag, in doppelte Anführungszeichen funktioniert perfekt. Ich bin jedoch überrascht, dass an diesem Eingang mindestens boost::tokenizer ist schneller als die boost::spirit::qi. In der Regel die höher ist schneller als alles, was ich getestet habe es gegen
- Sie können parse CSV mit regulären Ausdrücken (die boost::tokenizer tun kann), die wird schneller sein als der Geist.
- Können Sie einen Blick auf meine bearbeitet input-string? Dein code löscht die Anführungszeichen
- Dies ist wahrscheinlich eine gute Gelegenheit für Sie, um zu versuchen und erweitern Sie diesen code selbst. Probieren Sie es zunächst werden Sie wahrscheinlich in der Lage sein, um etwas herauszufinden.
InformationsquelleAutor Bill Lynch
10
Für einen hintergrund zu analysieren (Optional) zitiert getrennten Bereichen, einschließlich der verschiedenen quoting-Zeichen (', "), siehe hier:
- Parsen von Zeichenfolgen, mit boost::spirit
Für eine sehr, sehr, sehr vollständiges Beispiel, komplett mit Unterstützung für teilweise zitiert Werte und eine
```
splitInto(input, output, ' ');
```
Methode, die 'beliebig' output Container und Trennzeichen Ausdrücke, siehe hier:
- Wie man meine Arbeit aufzuteilen nur auf eine Reale Zeile und in der Lage sein zu überspringen, zitiert Teile der Zeichenfolge?
Adressierung genau Ihre Frage, vorausgesetzt entweder zitiert oder nicht börsennotierten Felder (keine teilweise Zitate innen Feld Werte), mit Geist, V2:

Nehmen wir das einfachste 'abstrakter Datentyp', die möglicherweise funktionieren kann:
```
using Column  = std::string;
using Columns = std::vector<Column>;
using CsvLine = Columns;
using CsvFile = std::vector<CsvLine>;
```
Sowie die wiederholte double-quote entweicht ein double-quote-Semantik (wie ich schon in dem Kommentar), Sie sollten in der Lage sein, etwas zu verwenden, wie:
```
static const char colsep = ',';

start  = -line % eol;
line   = column % colsep;
column = quoted | *~char_(colsep);
quoted = '"' >> *("\"\"" | ~char_('"')) >> '"';
```
Folgende komplette test-Programm druckt
```
[1997][Ford][E350][ac, abs, moon][rusty][3001.00]
```
(Hinweis: die BOOST_SPIRIT_DEBUG definieren, für die einfaches Debuggen). Sehen Sie Live auf Coliru

Full Demo
```
//#define BOOST_SPIRIT_DEBUG
#include <boost/spirit/include/qi.hpp>

namespace qi = boost::spirit::qi;

using Column  = std::string;
using Columns = std::vector<Column>;
using CsvLine = Columns;
using CsvFile = std::vector<CsvLine>;

template <typename It>
struct CsvGrammar : qi::grammar<It, CsvFile(), qi::blank_type>
{
    CsvGrammar() : CsvGrammar::base_type(start)
    {
        using namespace qi;

        static const char colsep = ',';

        start  = -line % eol;
        line   = column % colsep;
        column = quoted | *~char_(colsep);
        quoted = '"' >> *("\"\"" | ~char_('"')) >> '"';

        BOOST_SPIRIT_DEBUG_NODES((start)(line)(column)(quoted));
    }
  private:
    qi::rule<It, CsvFile(), qi::blank_type> start;
    qi::rule<It, CsvLine(), qi::blank_type> line;
    qi::rule<It, Column(),  qi::blank_type> column;
    qi::rule<It, std::string()> quoted;
};

int main()
{
    const std::string s = R"(1997,Ford,E350,"ac, abs, moon","""rusty""",3001.00)";

    auto f(begin(s)), l(end(s));
    CsvGrammar<std::string::const_iterator> p;

    CsvFile parsed;
    bool ok = qi::phrase_parse(f,l,p,qi::blank,parsed);

    if (ok)
    {
        for(auto& line : parsed) {
            for(auto& col : line)
                std::cout << '[' << col << ']';
            std::cout << std::endl;
        }
    } else
    {
        std::cout << "Parse failed\n";
    }

    if (f!=l)
        std::cout << "Remaining unparsed: '" << std::string(f,l) << "'\n";
}
```
- Ich habe Probleme beim kompilieren von code auf meinem Rechner. VC12-64-bit-Windows-7. Es stürzte der compiler mehrere Male. Aber ich sehe, dass es funktioniert gut in Coliru so muss es sein meiner Umgebung
- Vielleicht finden Sie in dem Beispiel Links von der hintergrund Antwort (oder auf github). Ich erinnere mich an das testen dieses auf einer Vielzahl von Compilern/boost-Versionen.
- Auch hier ist eine version des Beispiels in dieser Antwort, die entfernt alle Verwendung von c++11 Merkmale: http://ideone.com/VVVTYe. Wette kompiliert. (Meine beste Vermutung ist, MSVC nicht wie die using Klauseln)
- Ja, MSVC wusste nicht, wie die using-Klausel und das hatte ich bereits geändert, aber es immer noch nicht wie die Deklarationen in der CsvGrammer Konstruktor. z.B. 'eol' : nicht deklarierter Bezeichner
- Sie haben wahrscheinlich eine böse header (burninate es!) mit einem #define für eol? Versuchen Sie, mit expliziten Qualifikationen wie qi::eol: ideone.com/VVVTYe. (Ich hasse, wie ich psi-debug-compiler/library Probleme hier)
- Ich habe mich entschieden, den code zu kompilieren mit MinGW. Keine Probleme hier. Den codes funktioniert gut, außer die Anführungszeichen um "rusty" wird abgestreift, so wie boost::tokenizer tut. Auch ähnlich wie shart Antwort, es läuft langsamer als boost:;tokenizer was mich etwas überraschte
- wieder haben Sie einen Blick auf die verlinkten Antwort... stackoverflow.com/questions/7436481/... Es tut genau, was Sie wollen. Plus es hat die splitInto - Funktion-Schnittstelle bereit gestellt. Gute Nacht
- Dies funktionierte nicht für mich auf mehreren Linien, und ich dachte, es war Windows/wchar_t, aber es ist tatsächlich ein kleiner Fehler in der Grammatik: *~char_(colsep) sollte so etwas wie *~char_(",\n") so, dass die Spalten nicht zu verbrauchen, das newline!
- Naja, ich bin mir nicht bewusst, CSV-format, mit dem tatsächlichen Zeilenende-Zeichen inside zitiert Spalte Werte. Aber ja, dein Vorschlag ist in der Nähe, wenn Sie wirklich wollen, zu unterstützen, dass: *(char_ - eol - ',') wäre sauberer
- Das ist nicht das, was ich meinte zwar, dass ist eine Realität, mit der CSV-Daten, die wir analysieren: manchmal gibt es eingebettete Zeilenumbrüche, yay! Was ich meinte ist, dass da Kleene * ist gierig, ich denke, die Grammatik entspricht Zeilenumbrüche als eine Spalte mit Charakter lieber als ein Zeilenabschlusszeichen/separator.
- Liebe die Grammatik verwenden, aber ich kann es nicht für die Arbeit mit mehreren Zeilen "a,b,c\n1,2,3" Die Spalte in der Regel erscheint, gierig zu sein und das Essen für den Zeilenvorschub und 1 bis sieht es die nächsten Komma als Trennzeichen.
- 6 Jahre später 🙂 Wie wäre X3-version? 🙂
- ist das gut für Sie? stackoverflow.com/questions/50821925/...
InformationsquelleAutor sehe

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.

Full Demo