Konvertieren von HTML-Tabelle in CSV-Datei von shell

ich versuche zu konvertieren eine Datei mit einer HTML-Tabelle in das CSV-format. Ein Auszug aus dieser Datei folgt:

    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

    <html xmlns="http://www.w3.org/1999/xhtml" >
    <head id="Head1"><link rel="shortcut icon" href="favicon.ico" /><title>
Untitled Page
    </title></head>
    <body>
        <form name="form1" method="post" action="mypricelist.aspx" id="form1">
    <input type="hidden" name="__VIEWSTATE" id="__VIEWSTATE" value="/somethingrandom" />

<div>
    <table id="price_list" border="0">
<tr>
    <td>ProdCode</td><td>Description</td><td>Your Price</td>
</tr><tr>
    <td>ab101</td><td>loruem</td><td>1.1</td>
</tr><tr>
    <td>ab102</td><td>ipsum</td><td>0.1</td>
</tr><tr>

versuchte ich mit

    xls2csv -x -c\; evprice.xls > evprice.csv

aber das gibt mir eine Fehlermeldung

    evprice.xls is not OLE file or Error

Habe ich gegoogelt. es sagte, dass es war, weil die Datei nicht die richtige xls, sondern einfach nur html.

Wenn ich versuche

    file evprice.xls

seine sagt seine html-fand so eine 'Lösung', die die Nutzung von libreoffice.

    libreoffice --headless -convert-to csv ./evprice.xls 

gut, das nicht ein Fehler sein, aber die csv-Ausgabe-Datei ist alles seltsam, wie das öffnen einer exe-Datei in Editor.

es enthält eine Menge von seltsamen Zeichen wie diese

    —¬ž­þ9ü~ÆóXþK¢

jemand wissen, warum dies geschieht und habe eine funktionierende Lösung?

Ist die sample-Daten mit dem Sie arbeiten, öffentlich zugänglich? Ich weiß nicht, wie jemand in der Lage wären, etwas, das funktioniert mit einer Datei in einem unsicheren format, dessen Inhalt wir noch nie gesehen haben.
sorry, das ist nicht öffentlich. ich kann zwar einen Teil der Datei
Hinzugefügt xls-Datei.
Ich würde nicht wirklich beschreiben, als "XLS" - Datei an alle-es ist eine HTML-Tabelle, nix Excel oder XLS-bezogen auf alle.
...also, da, das sieht aus wie ein Duplikat von stackoverflow.com/questions/259091/... (obwohl die akzeptierte Antwort gibt es nicht automatisch auf alle, es gibt andere, die sind).

InformationsquelleAutor R. Leroi | 2014-02-25

Schreibe einen Kommentar